IBM已經(jīng)有2座全球前10大的超級計算機系統(tǒng),如Summit和Sierra,但隨著企業(yè)轉向以云計算為主的IT基礎架構,藍色巨人也亟欲展示其云計算服務的能力。IBM研究院本周公布去年在自家IBM Cloud上創(chuàng)建專為執(zhí)行人工智能(AI)應用的云計算超級計算機Vela,其速度相當于全球第15大的超級計算機。
IBM指出,超級計算機和AI本來屬于兩種不同領域;超級計算機多半是創(chuàng)建在裸機節(jié)點、高性能網(wǎng)絡硬件(如InfiniBand、Omnipath和Slingshot)、平行文件系統(tǒng)及其他高性能計算(HPC)組件。但超級計算機并非為AI設計,而是為了建?;蚰M任務,如執(zhí)行大氣變化模擬、材料開發(fā)或蛋白質折疊等醫(yī)療研究。如果要用于執(zhí)行AI模型創(chuàng)建,傳統(tǒng)設計會使這類“AI超級計算機”的建造成本大為增加,且限制部署彈性。IBM研究院去年就在IBM Cloud上打造了第一臺云計算原生、為AI優(yōu)化的“AI超級計算機”Vela,專門用于大量部署AI應用任務,而且已在2022年5月上線運行。
圖片來源/IBM
IBM說明,Vela解決了性能及部署彈性的兩難。在選擇AI超級計算機基礎架構上,IBM選擇將節(jié)點配置為VM(virtual machine),而非配置為裸機,理由是前者更有彈性,可利用OpenShift在幾分鐘內動態(tài)擴大或縮減AI集群或將計算資源在不同工作負載之間轉移。但團隊面臨的挑戰(zhàn)是在VM環(huán)境下配置出裸機般的性能。
Vela每個節(jié)點具備80GB A100 GPU,2顆第2代Intel Xeon Scalable處理器(Cascade Lake)、1.5TB DRAM及4個3.2 TB NVMe磁盤,IBM表示,超大內存及存儲空間是為了能訓練大型模型。為支持分布式訓練,運算節(jié)點之間以多道100G網(wǎng)絡適配器相連,且使用IBM Cloud的VPN網(wǎng)絡功能,確保連接安全性。
IBM表示,在IBM研究院和PyTorch的合作項目中,使用80GB內存使團隊得以使用更大批次資料,以及Meta的FSDP(Fully Shared Date Parallel)訓練策略,進行分布式訓練任務,效率提升到高達90%以上,總參數(shù)超過100億個。
此外,由于支持VM擴展(Virtual Machine Extensions,VMX)、Single-root IO virtualization(SR-IOV)及大量頁面的裸機配置,使Vela的VM整體性能耗損減到低于5%。IBM說這是他們已知最低的耗損率,也讓其AI超級計算機性能逼近裸機。IBM研究院希望展現(xiàn),在標準的以太網(wǎng)絡云計算基礎架構上,也能輕易執(zhí)行數(shù)十億參數(shù)的AI模型。
The Next Platform估計,以Vela現(xiàn)有規(guī)格,其基準測試的性能可達每秒27.9 petaflops,若按2022年11月最新的全球五百大計算機排行,約等同于全球第15大。