Google昨(6)日公布用于云計(jì)算的Cloud TPU v4技術(shù)細(xì)節(jié),號稱性能更快,且更節(jié)能。
TPU v4是Google于2021年宣布,專門用于執(zhí)行機(jī)器學(xué)習(xí)的AI芯片,是Google第5代Google特殊領(lǐng)域架構(gòu)(domain specific architecture,DSA)及第3代用于ML模型的超級計(jì)算機(jī)平臺。Google TPU架構(gòu)長Norm Jouppi及Google杰出工程師David Patterson本周在一篇論文中說明TPUv4技術(shù)細(xì)節(jié)。Google工程師指出,拜互聯(lián)技術(shù)及特殊領(lǐng)域加速器(domain specific accelerator,DSA)技術(shù)之賜,TPUv4的機(jī)器學(xué)習(xí)系統(tǒng)(ML)性能擴(kuò)展速度較前一代TPUv3提升近10倍,能源效率則為現(xiàn)代ML DSA的2、3倍,而二氧化碳排放則比一般本地部署的數(shù)據(jù)中心減少20倍,是執(zhí)行大型語言模型的最理想平臺。
它每芯片性能是TPU v3 2.1倍,每瓦性能提高2.7倍。意味著TPU v4芯片用電率僅200瓦。每顆TPU v4包含SparseCores,SparseCores為一種資料流處理器,可使深度學(xué)習(xí)模型嵌入(embeddings)執(zhí)行速度提升5到7倍,但TPU v4裸晶(die)面積僅5%。借由Sparsecores,搭載TPUv4的系統(tǒng)可用于執(zhí)行搜索、廣告、YouTube和Google Play的AI內(nèi)容推薦。
TPU v4也是第一個部署可配置OCS的超級計(jì)算機(jī)平臺。OCS可動態(tài)配置互聯(lián)拓?fù)?,以提升擴(kuò)展性、可用性、利用率、模塊化、安全、性能及用電效率。和Infiniband相比,OCS及其底層光纖組件,系統(tǒng)成本不到5%,用電小于3%。
TPU v4從2020年用于Google Cloud,搭載TPUv4的超級計(jì)算機(jī)提供Exascale等級的ML性能,4096個芯片以Google自有光纖回路交換(optical circuit switch,OCS)互聯(lián)。
此外,Google宣稱,以類似大小的系統(tǒng)來看,使用TPU v4的系統(tǒng)比Graphcore IPU Bow的系統(tǒng)快4.3到4.5倍,也比搭載Nvidia A100的系統(tǒng)快1.2到1.7倍,用電卻少1.3到1.9倍。而Google Cloud使用TPU v4,和本地部署數(shù)據(jù)中心的當(dāng)代DSA相較,能耗量少5倍,排碳量更是僅1/20。
Google Cloud去年宣布其位于奧克拉荷馬州機(jī)器學(xué)習(xí)集群使用TPU v4,總和運(yùn)算性能峰值達(dá)9 exaflops,Google聲稱是已知最大的,且使用90%非碳能源的ML運(yùn)算中樞。Google并宣布,提供AI文本生成圖片服務(wù)的AI創(chuàng)業(yè)公司Midjourney已經(jīng)利用Cloud TPUv4來訓(xùn)練其第4版模型。