IBM專家觀點(diǎn)：IBM AI存儲(chǔ)，算力稀缺時(shí)代的“破局者”

來源：IBM中國(guó)

作者：周立旸

時(shí)間：2023-11-25

算力稀缺時(shí)代，存力大有可為

640 （2）.jpg

2023年11月，業(yè)界“又雙叒叕“發(fā)布了數(shù)款重磅AI基礎(chǔ)架構(gòu)產(chǎn)品。算力方面，英偉達(dá)（NVIDIA）發(fā)布了號(hào)稱“史上最強(qiáng)”的新一代AI芯片H200，和上一代產(chǎn)品相比，顯存容量幾乎翻了一番，性能提升了60%到90%。存力方面，IBM同樣發(fā)布了新一代Storage Scale System 6000（SSS 6000），這是一個(gè)旨在滿足數(shù)據(jù)密集型和AI工作負(fù)載需求的云規(guī)模全球數(shù)據(jù)平臺(tái)，單個(gè)模塊可提供超過256GB/s的吞吐量和5M IOPS的文件訪問性能，分別超過市場(chǎng)領(lǐng)先競(jìng)爭(zhēng)對(duì)手2.5倍和2倍，能夠滿足多個(gè)并行的AI工作負(fù)載和數(shù)據(jù)密集型工作負(fù)載對(duì)極高的數(shù)據(jù)訪問速度要求。

640 （3）.jpg

IBM Storage Scale System 6000

IBM在2022年發(fā)布的Storage Scale System 3500（SSS 3500）數(shù)據(jù)存儲(chǔ)，單個(gè)模塊24塊NVMe SSD可以提供超過125GB/s的數(shù)據(jù)訪問性能，已經(jīng)大幅領(lǐng)先于大部分AI存儲(chǔ)產(chǎn)品，IBM為何要推出更高性能的SSS 6000呢？

算力和算法的發(fā)展，需要更快速的數(shù)據(jù)訪問

人工智能是算法、數(shù)據(jù)、算力的有效結(jié)合，近年來大模型訓(xùn)練和推理、多模態(tài)AI等領(lǐng)域的突破更是得益于高質(zhì)量數(shù)據(jù)的發(fā)展。隨著數(shù)據(jù)集規(guī)模不斷增加，應(yīng)用程序載入數(shù)據(jù)花費(fèi)的時(shí)間越來越長(zhǎng)，進(jìn)而影響了應(yīng)用程序的性能，因?yàn)榇媪Σ蛔銓?dǎo)致的低效I/O使得運(yùn)算速度日益提升的GPU無用武之地。為了滿足不斷提高的算力和各種基礎(chǔ)模型對(duì)更大參數(shù)規(guī)模的需要，也需要提供更高速的數(shù)據(jù)訪問能力。

舉例來說，在目前主流的NVIDIA H100/H800平臺(tái)上，運(yùn)行一個(gè)大小為30TB的圖像數(shù)據(jù)集用于AI訓(xùn)練，每顆GPU所需的數(shù)據(jù)存儲(chǔ)訪問性能就超過了4GBps，運(yùn)行更大規(guī)模的數(shù)據(jù)集的應(yīng)用或支持多種負(fù)載的智算平臺(tái)可能需要數(shù)百GBps到數(shù)TBps的高速數(shù)據(jù)存儲(chǔ)才能滿足其對(duì)存力的需求。經(jīng)過充分優(yōu)化的IBM Storage Scale System可以充分發(fā)揮并行架構(gòu)和高速網(wǎng)絡(luò)的優(yōu)勢(shì)，加速各種AI工作負(fù)載應(yīng)用。

此外，不僅僅是訓(xùn)練環(huán)節(jié)，對(duì)于AI應(yīng)用來說，從數(shù)據(jù)攝入到生產(chǎn)推理，每個(gè)環(huán)節(jié)都需要利用不同工具實(shí)現(xiàn)海量數(shù)據(jù)處理，并且這是一個(gè)不斷重復(fù)的流程。用戶需要構(gòu)建的端到端的高速數(shù)據(jù)管道，簡(jiǎn)化流程并實(shí)現(xiàn)數(shù)據(jù)安全、高效的流動(dòng)?；贗BM Storage Scale軟件多協(xié)議互通的全局?jǐn)?shù)據(jù)平臺(tái)能力，用戶可以在不同地點(diǎn)通過不同接口訪問同樣的數(shù)據(jù)，減少創(chuàng)建不必要的數(shù)據(jù)副本并通過智能的緩存技術(shù)減少數(shù)據(jù)傳遞的網(wǎng)絡(luò)開銷，整合來自核心、邊緣和云端的寶貴數(shù)據(jù)資源。

AI應(yīng)用全流程

算力短缺時(shí)代，需要提高GPU資源的利用率

隨著通用型人工智能和大模型的發(fā)展，目前包括中國(guó)公司在內(nèi)的全球AI公司都存在算力短缺的情況，英偉達(dá)等主要供應(yīng)商的中高性能GPU更是“千金難求”。對(duì)于擁有一定數(shù)量GPU的用戶來說，如果能夠?qū)PU的利用率提高一倍，就相當(dāng)于增加了一倍的額外算力，在更短的時(shí)間內(nèi)完成更多的應(yīng)用。

由于顯存容量受限，多機(jī)多卡的GPU集群需要共享的外部存儲(chǔ)來為所有節(jié)點(diǎn)提供高速的應(yīng)用數(shù)據(jù)訪問。將數(shù)據(jù)從存儲(chǔ)載入到GPU，過去都是由CPU負(fù)責(zé)，而這將會(huì)成為硬件性能的瓶頸。即使實(shí)現(xiàn)了服務(wù)器節(jié)點(diǎn)到存儲(chǔ)的高速訪問，數(shù)據(jù)到GPU的這“最后一公里”往往會(huì)造成GPU等待數(shù)據(jù)的情況，導(dǎo)致GPU利用率低下。

為此，英偉達(dá)開發(fā)了GPUDirect存儲(chǔ)技術(shù)，可以通過RDMA高速網(wǎng)絡(luò)直接將數(shù)據(jù)從外部存儲(chǔ)傳輸至GPU顯存上，能有效減輕CPU I/O的瓶頸，提升GPU訪問數(shù)據(jù)的帶寬并大幅縮短時(shí)間延遲。IBM Storage Scale軟件是首批支持該技術(shù)的認(rèn)證存儲(chǔ)產(chǎn)品，經(jīng)測(cè)試，采用GDS技術(shù)的IBM Storage Scale System可以將GPU訪問數(shù)據(jù)的帶寬提高一倍，時(shí)間延遲縮短一半。

在實(shí)際應(yīng)用中，通過采用GDUDirect存儲(chǔ)（GDS）技術(shù)可以將GPU的利用率提高90%。例如，德國(guó)大陸汽車（Continental Automotive AG）采用IBM Storage Scale System作為NVIDIA DGX系統(tǒng)的共享數(shù)據(jù)存儲(chǔ)后，AI訓(xùn)練時(shí)間縮短了70%，每個(gè)月完成的試驗(yàn)數(shù)量增長(zhǎng)了14倍，寶貴GPU資源的利用率得到了極大的提升。

640 （4）.jpg

IBM存儲(chǔ)與英偉達(dá)有著多年的合作歷史，早在2018年和2019年就推出了DGX-1 POD和DGX-2 POD的參考架構(gòu)，并幫助英偉達(dá)利用IBM Storage Scale System構(gòu)建了2018年全球超級(jí)計(jì)算機(jī)排名第61位的Circe和2019年全球排名第22位的DGX-2H SuperPOD；此后更是成為其GPU Direct to Storage（GDS）公開測(cè)試版本的合作伙伴，針對(duì)NVIDIA DGX A100和H100的BasePOD和SuperPOD都提供了NVIDIA認(rèn)證的參考存儲(chǔ)架構(gòu)。

IBM Storage Scale軟件也是首批官方認(rèn)證支持GDS的產(chǎn)品。今年11月發(fā)布的最新Top500超級(jí)計(jì)算機(jī)榜單中，位于西班牙巴塞羅那超級(jí)計(jì)算中心的MareNostrum 5 ACC（GPU集群分區(qū)）排名第八，該系統(tǒng)采用了4500塊NVIDIA H100 GPU，其存儲(chǔ)部分采用了容量為248PB的IBM Storage Scale System和400PB的磁帶系統(tǒng)。

IBM AI存儲(chǔ)的降本增效“黑科技”

除了IBM Storage Scale軟件的高性能數(shù)據(jù)訪問能力，以及跨系統(tǒng)、跨地域的全局?jǐn)?shù)據(jù)訪問和調(diào)度能力，IBM AI存儲(chǔ)還有不少“黑科技”可以更好地幫助AI用戶降本增效：

·綠色節(jié)能：IBM享有專利的計(jì)算存儲(chǔ)驅(qū)動(dòng)器FlashCore Module（FCM）在存儲(chǔ)驅(qū)動(dòng)器內(nèi)部集成了智能的FPGA芯片，通過硬件加速可實(shí)現(xiàn)強(qiáng)大的在線數(shù)據(jù)壓縮和加密功能?；谠摷夹g(shù)Storage Scale System 6000可以在4U空間內(nèi)提供高達(dá)3.6PB全閃存有效容量，將每TB的存儲(chǔ)成本降低70%，將每TB的能耗降低53%。

·安全彈性：IBM Storage Scale軟件的糾刪碼功能確保了數(shù)據(jù)可靠性，與傳統(tǒng)RAID相比，可以在數(shù)分鐘（而非數(shù)小時(shí)或數(shù)天）內(nèi)重建磁盤，最大程度地減少故障對(duì)數(shù)據(jù)訪問性能的影響；IBM Storage Scale軟件提供Safeguarded Copy（不可篡改的數(shù)據(jù)快照）和日志審計(jì)、加密功能，可以有效應(yīng)對(duì)如網(wǎng)絡(luò)攻擊和勒索病毒等的安全威脅，提供高達(dá)6個(gè)9的可用性。

·支持混搭：IBM Storage Scale提供多種部署和配置選項(xiàng)，可將不同存儲(chǔ)設(shè)備、基于NFS的其它文件存儲(chǔ)和基于S3的其它對(duì)象存儲(chǔ)、甚至是磁帶存儲(chǔ)統(tǒng)一納入到全局命名空間中，消除數(shù)據(jù)孤島，簡(jiǎn)化海量數(shù)據(jù)的訪問和管理。

得益于這些領(lǐng)先優(yōu)勢(shì)，在2023年發(fā)布的Gartner分布式存儲(chǔ)魔力象限報(bào)告中，IBM連續(xù)第八年被評(píng)為領(lǐng)導(dǎo)者，并在報(bào)告中被認(rèn)為是用于高性能文件、AI和分析型工作負(fù)載的最佳解決方案。

無論是應(yīng)對(duì)當(dāng)前算力稀缺的挑戰(zhàn)，還是發(fā)展以數(shù)據(jù)為中心的新一代AI應(yīng)用，提升存力、優(yōu)化數(shù)據(jù)存儲(chǔ)已經(jīng)成為必選項(xiàng)。我們期待繼續(xù)攜手中國(guó)客戶和合作伙伴突破算力瓶頸、避開成本陷阱，更加高效地將AI轉(zhuǎn)化為生產(chǎn)力！

AI IBM IBM Cloud

上一篇：IBM推出云原生SIEM，助力安全團(tuán)隊(duì)高效應(yīng)對(duì)威脅

原文鏈接：點(diǎn)擊前往 >

文章來源：IBM中國(guó)

版權(quán)說明：本文內(nèi)容來自于IBM中國(guó)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章