IBM在自家云上打造相當全球第15快的AI超級計算機

來源：十輪網

作者：十輪網

時間：2023-02-27

IBM已經有2座全球前10大的超級計算機系統(tǒng)，如Summit和Sierra，但隨著企業(yè)轉向以云計算為主的IT基礎架構，藍色巨人也亟欲展示其云計算服務的能力。

IBM已經有2座全球前10大的超級計算機系統(tǒng)，如Summit和Sierra，但隨著企業(yè)轉向以云計算為主的IT基礎架構，藍色巨人也亟欲展示其云計算服務的能力。IBM研究院本周公布去年在自家IBM Cloud上創(chuàng)建專為執(zhí)行人工智能（AI）應用的云計算超級計算機Vela，其速度相當于全球第15大的超級計算機。

IBM指出，超級計算機和AI本來屬于兩種不同領域；超級計算機多半是創(chuàng)建在裸機節(jié)點、高性能網絡硬件（如InfiniBand、Omnipath和Slingshot）、平行文件系統(tǒng)及其他高性能計算（HPC）組件。但超級計算機并非為AI設計，而是為了建?；蚰M任務，如執(zhí)行大氣變化模擬、材料開發(fā)或蛋白質折疊等醫(yī)療研究。如果要用于執(zhí)行AI模型創(chuàng)建，傳統(tǒng)設計會使這類“AI超級計算機”的建造成本大為增加，且限制部署彈性。IBM研究院去年就在IBM Cloud上打造了第一臺云計算原生、為AI優(yōu)化的“AI超級計算機”Vela，專門用于大量部署AI應用任務，而且已在2022年5月上線運行。

圖片來源／IBM

IBM說明，Vela解決了性能及部署彈性的兩難。在選擇AI超級計算機基礎架構上，IBM選擇將節(jié)點配置為VM（virtual machine），而非配置為裸機，理由是前者更有彈性，可利用OpenShift在幾分鐘內動態(tài)擴大或縮減AI集群或將計算資源在不同工作負載之間轉移。但團隊面臨的挑戰(zhàn)是在VM環(huán)境下配置出裸機般的性能。

Vela每個節(jié)點具備80GB A100 GPU，2顆第2代Intel Xeon Scalable處理器（Cascade Lake）、1.5TB DRAM及4個3.2 TB NVMe磁盤，IBM表示，超大內存及存儲空間是為了能訓練大型模型。為支持分布式訓練，運算節(jié)點之間以多道100G網絡適配器相連，且使用IBM Cloud的VPN網絡功能，確保連接安全性。

IBM表示，在IBM研究院和PyTorch的合作項目中，使用80GB內存使團隊得以使用更大批次資料，以及Meta的FSDP（Fully Shared Date Parallel）訓練策略，進行分布式訓練任務，效率提升到高達90%以上，總參數超過100億個。

此外，由于支持VM擴展（Virtual Machine Extensions，VMX）、Single-root IO virtualization（SR-IOV）及大量頁面的裸機配置，使Vela的VM整體性能耗損減到低于5%。IBM說這是他們已知最低的耗損率，也讓其AI超級計算機性能逼近裸機。IBM研究院希望展現，在標準的以太網絡云計算基礎架構上，也能輕易執(zhí)行數十億參數的AI模型。

The Next Platform估計，以Vela現有規(guī)格，其基準測試的性能可達每秒27.9 petaflops，若按2022年11月最新的全球五百大計算機排行，約等同于全球第15大。

AI IBM IBM Cloud

上一篇：YouTube測試“1080p Premium” 想看高畫質視頻或要付費

原文鏈接：點擊前往 >

版權說明：本文內容來自于十輪網，本站不擁有所有權，不承擔相關法律責任。文章內容系作者個人觀點，不代表快出海對觀點贊同或支持。如有侵權，請聯系管理員（zzx@kchuhai.com）刪除！

相關文章