Google發(fā)布Cloud TPU v5p與超級計算機架構AI Hypercomputer

來源：十輪網(wǎng)

作者：十輪網(wǎng)

時間：2023-12-08

Google周四發(fā)布了新的張量處理器（Tensor Processing Unit）Cloud TPU v5p、超級計算機架構AI Hypercomputer，以及資源管理工具Dynamic Workload Scheduler，以協(xié)助組織執(zhí)行與處理AI任務。

Google周四（12/7）發(fā)布了新的張量處理器（Tensor Processing Unit）Cloud TPU v5p、超級計算機架構AI Hypercomputer，以及資源管理工具Dynamic Workload Scheduler，以協(xié)助組織執(zhí)行與處理AI任務。

Google始于今年11月推出Cloud TPU v5e，再于本周發(fā)布Cloud TPU v5p，前者強調(diào)的是成本效益，后者號稱是迄今最強大的TPU。每個TPU v5p pod具備8,960個芯片，芯片間的互聯(lián)速度達4,800 Gbps，相較于上一代的TPU v4，Cloud TPU v5p提供了2倍的FLOPS與3倍的高帶寬內(nèi)存（HBM）。

由于Cloud TPU v5p是性能取向，因此在訓練大型LLM模型時的速度，比TPU v4快了2.8倍，在第二代SparseCores的幫助下，TPU v5p訓練嵌入式密集模型的速度，也比TPU v4快了1.9倍。

至于AI Hypercomputer則是個超級計算機架構，它集成了優(yōu)化性能的硬件、開源軟件、主要的各種機器學習框架，以及靈活的消費模式。Google解釋，傳統(tǒng)上通常借由強化分散的組件來處理嚴苛要求的AI任務，然而，AI Hypercomputer則是利用系統(tǒng)上的協(xié)同設計來提高AI在訓練、微調(diào)與服務上的效率及生產(chǎn)力。

在硬件性能的優(yōu)化上，AI Hypercomputer具備基于超大規(guī)模數(shù)據(jù)中心基礎設施在運算、存儲與網(wǎng)絡設備的優(yōu)化設計；也允許開發(fā)者通過開源軟件來訪問相關硬件，以微調(diào)與管理AI任務，包括支持JAX、TensorFlow與PyTorch等機器學習框架，以及Multislice Training與Multihost Inferencing等軟件，并深度集成了Google Kubernetes Engine（GKE）與Google Compute Engine。

AI Hypercomputer提供了更靈活的消費模式，除了特定用量的折扣（Committed Use Discounts，CUD），以及隨選（On-Demand）與競價（Spot）之外，AI Hypercomputer也借由全新的Dynamic Workload Scheduler，來提供專為AI任務設計的兩種消費模式，F(xiàn)lex Start與Calendar。

Dynamic Workload Scheduler為一資源管理及任務調(diào)度平臺，它支持Cloud TPU與Nvidia GPU，可同時調(diào)度所需的所有加速器來協(xié)助用戶優(yōu)化支出。其中的Flex Start主要用來微調(diào)模型、實驗、較短的訓練任務、蒸餾、脫機推理及批次任務，并在準備執(zhí)行請求GPU與TPU容量，是一種相對經(jīng)濟的選擇。

而Calendar模式則可替AI任務預留開始時間，適用于需要精確開始時間，與特定持續(xù)期間的訓練及實驗性任務，可于該固定時間的區(qū)域中請求GPU容量，所持續(xù)的期間可以是7天或14天，最早可提前8周購買。

圖片來源／Google Cloud

Google Cloud 谷歌云

上一篇：YouTube推出“防惡意刷屏”功能：創(chuàng)作者可一鍵暫停視頻評論

原文鏈接：點擊前往 >

版權說明：本文內(nèi)容來自于十輪網(wǎng)，本站不擁有所有權，不承擔相關法律責任。文章內(nèi)容系作者個人觀點，不代表快出海對觀點贊同或支持。如有侵權，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關文章