新版GKE可管理最多6.5萬(wàn)集群節(jié)點(diǎn)，超越AWS、Azure 10倍

來(lái)源：十輪網(wǎng)

作者：十輪網(wǎng)

時(shí)間：2024-11-15

Google Cloud公布最新Google Kubernetes Engine版本，號(hào)稱可支持最高達(dá)65,000個(gè)節(jié)點(diǎn)的服務(wù)器集群，以執(zhí)行超大型AI模型。

生成式AI技術(shù)演進(jìn)及應(yīng)用普及，推升了大型語(yǔ)言模型（LLM）規(guī)模及參數(shù)量也越來(lái)越大，目前許多已突破千億參數(shù)，甚至有些來(lái)到2兆。而訓(xùn)練這些大型模型的加速器，需要超過(guò)1萬(wàn)個(gè)節(jié)點(diǎn)的運(yùn)算基礎(chǔ)架構(gòu)。

Google Kubernetes Engine（GKE）向來(lái)可支持多節(jié)點(diǎn)集群，以執(zhí)行AI模型訓(xùn)練任務(wù)。先前版本GKE可支持1.5萬(wàn)個(gè)集群節(jié)點(diǎn)，隨著新版推出，現(xiàn)在GKE可支持高達(dá)6.5萬(wàn)個(gè)節(jié)點(diǎn)的集群。Google認(rèn)為最新GKE支持的節(jié)點(diǎn)規(guī)模，是Amazon和微軟的10倍以上。

以Google Cloud而言，現(xiàn)在單一節(jié)點(diǎn)提供了多個(gè)加速器，像是搭載4顆芯片的Cloud TPU v5e節(jié)點(diǎn)，因此單一集群使用最新版GKE后，最多可管理超過(guò)25萬(wàn)顆加速器。

Google說(shuō)明新版GKE較前代的創(chuàng)新。首先，該公司將Key-Value數(shù)據(jù)庫(kù)由etcd換成了以Google Spanner為基礎(chǔ)的key-value數(shù)據(jù)庫(kù)，后者幾乎規(guī)模無(wú)上限，可改善集群運(yùn)行（如啟動(dòng)和更新）延遲性，及無(wú)狀態(tài)集群控制層（control plane）。Google并實(shí)例etcd API以提供回溯兼容性，使核心Kubernetes無(wú)需變更。

其次，Google改善了管理Kubernetes控制層的GKE基礎(chǔ)架構(gòu)，使GKE現(xiàn)在擴(kuò)展速度更快，改善的控制層有多重效益，包括能執(zhí)行高一致性的大容量運(yùn)算。控制層現(xiàn)在能自動(dòng)應(yīng)對(duì)運(yùn)算調(diào)節(jié)，并使延遲性維持在可預(yù)測(cè)范圍。這點(diǎn)對(duì)執(zhí)行大移動(dòng)態(tài)應(yīng)用如SaaS、災(zāi)難恢復(fù)和備援、批次部署以及測(cè)試環(huán)境來(lái)說(shuō)尤其重要。

有了新版GKE，Google Cloud強(qiáng)調(diào)更能支持AI模型任務(wù)。訓(xùn)練AI模型時(shí)企業(yè)需要分配計(jì)算資源給多個(gè)工作負(fù)載，因此將任務(wù)集中在少量集群可提供最大調(diào)度彈性，執(zhí)行推論、研究和訓(xùn)練的作業(yè)。Google說(shuō)，由于支持6.5萬(wàn)個(gè)節(jié)點(diǎn)，現(xiàn)在GKE允許單一集群執(zhí)行5種任務(wù)，每種任務(wù)的執(zhí)行性能，都足以媲美2023年Google Cloud以5萬(wàn)余顆TPU v5e，締造的10 exa-FLOPs的LLM訓(xùn)練速度世界紀(jì)錄。

Google Cloud 云服務(wù) 云計(jì)算

上一篇：美國(guó)大選后用戶數(shù)暴增70萬(wàn)名，X平臺(tái)最新對(duì)手Bluesky是什么？

原文鏈接：點(diǎn)擊前往 >

版權(quán)說(shuō)明：本文內(nèi)容來(lái)自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章