Google公布Cloud TPU v4 AI芯片技術(shù),號稱性能更快、更節(jié)能

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時間:2023-04-10
1782
Google昨(6)日公布用于云計(jì)算的Cloud TPU v4技術(shù)細(xì)節(jié),號稱性能更快,且更節(jié)能。

0407-_google_cloud_tpu_v4_pods-960.jpg

Google昨(6)日公布用于云計(jì)算的Cloud TPU v4技術(shù)細(xì)節(jié),號稱性能更快,且更節(jié)能。

TPU v4是Google于2021年宣布,專門用于執(zhí)行機(jī)器學(xué)習(xí)的AI芯片,是Google第5代Google特殊領(lǐng)域架構(gòu)(domain specific architecture,DSA)及第3代用于ML模型的超級計(jì)算機(jī)平臺。Google TPU架構(gòu)長Norm Jouppi及Google杰出工程師David Patterson本周在一篇論文中說明TPUv4技術(shù)細(xì)節(jié)。Google工程師指出,拜互聯(lián)技術(shù)及特殊領(lǐng)域加速器(domain specific accelerator,DSA)技術(shù)之賜,TPUv4的機(jī)器學(xué)習(xí)系統(tǒng)(ML)性能擴(kuò)展速度較前一代TPUv3提升近10倍,能源效率則為現(xiàn)代ML DSA的2、3倍,而二氧化碳排放則比一般本地部署的數(shù)據(jù)中心減少20倍,是執(zhí)行大型語言模型的最理想平臺。

它每芯片性能是TPU v3 2.1倍,每瓦性能提高2.7倍。意味著TPU v4芯片用電率僅200瓦。每顆TPU v4包含SparseCores,SparseCores為一種資料流處理器,可使深度學(xué)習(xí)模型嵌入(embeddings)執(zhí)行速度提升5到7倍,但TPU v4裸晶(die)面積僅5%。借由Sparsecores,搭載TPUv4的系統(tǒng)可用于執(zhí)行搜索、廣告、YouTube和Google Play的AI內(nèi)容推薦。

TPU v4也是第一個部署可配置OCS的超級計(jì)算機(jī)平臺。OCS可動態(tài)配置互聯(lián)拓?fù)?,以提升擴(kuò)展性、可用性、利用率、模塊化、安全、性能及用電效率。和Infiniband相比,OCS及其底層光纖組件,系統(tǒng)成本不到5%,用電小于3%。

TPU v4從2020年用于Google Cloud,搭載TPUv4的超級計(jì)算機(jī)提供Exascale等級的ML性能,4096個芯片以Google自有光纖回路交換(optical circuit switch,OCS)互聯(lián)。

此外,Google宣稱,以類似大小的系統(tǒng)來看,使用TPU v4的系統(tǒng)比Graphcore IPU Bow的系統(tǒng)快4.3到4.5倍,也比搭載Nvidia A100的系統(tǒng)快1.2到1.7倍,用電卻少1.3到1.9倍。而Google Cloud使用TPU v4,和本地部署數(shù)據(jù)中心的當(dāng)代DSA相較,能耗量少5倍,排碳量更是僅1/20。

Google Cloud去年宣布其位于奧克拉荷馬州機(jī)器學(xué)習(xí)集群使用TPU v4,總和運(yùn)算性能峰值達(dá)9 exaflops,Google聲稱是已知最大的,且使用90%非碳能源的ML運(yùn)算中樞。Google并宣布,提供AI文本生成圖片服務(wù)的AI創(chuàng)業(yè)公司Midjourney已經(jīng)利用Cloud TPUv4來訓(xùn)練其第4版模型。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
版權(quán)說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點(diǎn),不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多