編者按:面向AI時(shí)代,阿里云基礎(chǔ)設(shè)施是如何創(chuàng)新與發(fā)展的?計(jì)算、網(wǎng)絡(luò)、存儲、服務(wù)器、集群、可觀測等,阿里云全新升級的AI Infra到底有哪些重磅更新?基于阿里云副總裁、彈性計(jì)算和存儲產(chǎn)品線負(fù)責(zé)人吳結(jié)生在2024云棲大會上的演講,本文詳解阿里云在AI時(shí)代的數(shù)字基礎(chǔ)設(shè)施大布局和新進(jìn)展。
01
AI時(shí)代需要什么樣的云基礎(chǔ)設(shè)施?
云計(jì)算一直在踐行Scaling Law,為千行百業(yè)的數(shù)字化升級提供大規(guī)??蓴U(kuò)展的算力、存力及網(wǎng)絡(luò)等資源,滿足客戶業(yè)務(wù)規(guī)模的擴(kuò)展、AI模型的擴(kuò)展等需求。云計(jì)算讓AI變得更普惠,幫助客戶在云上更加容易使用AI技術(shù)。
目前,中國有超過50%的大模型公司跑在阿里云上,80%的科技企業(yè)運(yùn)行在阿里云上。AI發(fā)展對云基礎(chǔ)設(shè)施提出了新要求:
首先,AI負(fù)載對計(jì)算提出了更大需求。一些前沿的大模型訓(xùn)練,每一年對算力需求的增長大概有4-5倍。比如Llama-3.1-405B,對算力的需求較Llama2.0提升了50倍。IDC數(shù)據(jù)也顯示,最近幾年中國智算的算力復(fù)合增長率為33.9%。
其次,AI負(fù)載對存儲也提出了更高的需求。隨著模型參數(shù)每年10倍增長,模型的數(shù)據(jù)集每年達(dá)到50倍增長,都需要更高性能的存力。
在模型訓(xùn)練過程里面,需要不停去打一些Checkpoint,大小從幾GB到幾十GB,再到今天的幾十TB,頻率從小時(shí)或者幾十分鐘,到現(xiàn)在可能每一分鐘就要打一個(gè)Checkpoint。同時(shí),大模型文件不斷更新,怎么樣在一個(gè)大規(guī)模的環(huán)境里面去分發(fā)和同步這些模型文件,對整個(gè)存儲提出了更高的要求。
所以,隨著AI技術(shù)的發(fā)展,云計(jì)算跟AI更緊密地融合,對阿里云基礎(chǔ)設(shè)施提出了更高的要求。作為一個(gè)新形態(tài)的阿里云的基礎(chǔ)設(shè)施,要具備三個(gè)特征:
第一,大規(guī)模、高性價(jià)比的AI基礎(chǔ)設(shè)施,滿足訓(xùn)練和推理需求。
第二,高性能、高可用的基礎(chǔ)設(shè)施,實(shí)現(xiàn)業(yè)務(wù)的發(fā)展,保障業(yè)務(wù)的連續(xù)性。
第三,更易用、更智能的基礎(chǔ)設(shè)施,提高開發(fā)效率和運(yùn)維效率。
02
AI Infra要大規(guī)模、高性價(jià)比
阿里云構(gòu)建了完整的AI基礎(chǔ)設(shè)施,來滿足訓(xùn)練和推理的規(guī)?;l(fā)展需求:
計(jì)算、存儲、網(wǎng)絡(luò)和安全等產(chǎn)品和服務(wù),是堅(jiān)實(shí)的基礎(chǔ);在此之上,通過先進(jìn)的容器化技術(shù)進(jìn)行算力的編排和管理;進(jìn)而,通過AI智算平臺PAI來進(jìn)行任務(wù)調(diào)度、編譯優(yōu)化,實(shí)現(xiàn)彈性擴(kuò)展、容錯(cuò)以及遷移等能力,打造完整的阿里云AI技術(shù)服務(wù)棧。
在這個(gè)服務(wù)棧里面,阿里云進(jìn)行了全棧優(yōu)化,以提升系統(tǒng)穩(wěn)定性和計(jì)算效率,整體AI基礎(chǔ)設(shè)施的連續(xù)訓(xùn)練有效時(shí)長達(dá)到99%,處于業(yè)界領(lǐng)先水平。
同時(shí),通過通信、編譯、顯存使用等方面的優(yōu)化來提升GPU使用的效率,整個(gè)GPU的使用效率MFU(Model FLOPs Utilization)提升了20%以上。
為支撐大規(guī)模的模型訓(xùn)練和推理,阿里云打造了靈駿超級智算集群,主要包含四個(gè)重要組件:靈駿計(jì)算集群、HPN高性能網(wǎng)絡(luò)、磐久AI計(jì)算服務(wù)器,以及CPFS高性能存儲集群。
靈駿計(jì)算集群提供可擴(kuò)容到10萬張GPU卡規(guī)模的能力,同時(shí)在萬卡的規(guī)模下性能線性增長率達(dá)到了96%,性能網(wǎng)絡(luò)吞吐的有效使用率也達(dá)到了99%。基于CPFS,靈駿可提供20TB/S的超高吞吐并行存儲能力。
靈駿集群采用了HPN7.0網(wǎng)絡(luò)架構(gòu)。HPN7.0架構(gòu)是一個(gè)多軌和多平面的網(wǎng)絡(luò)設(shè)計(jì),可以支持單集群擴(kuò)展到10萬張卡的規(guī)模,并提升GPU計(jì)算效率。每臺機(jī)器通過3.2Tb/s的高性能RDMA網(wǎng)絡(luò)連接,保障了在大規(guī)模GPU集群聯(lián)合的計(jì)算效率的提升。
同時(shí),阿里云做了一系列網(wǎng)絡(luò)方面的創(chuàng)新和優(yōu)化,比如自研的Solar RDMA協(xié)議,提供了自適應(yīng)的多路徑的選擇;自研HPCC的流控算法;網(wǎng)卡的自研和通信庫的優(yōu)化等等。通過這一系列網(wǎng)絡(luò)的優(yōu)化,實(shí)現(xiàn)在訓(xùn)練過程中最關(guān)鍵的集群通訊能力1倍的提升、對端到端的訓(xùn)練整體的性能提升10%以上的效果。
新升級磐久AI計(jì)算服務(wù)器。最新的磐久AI計(jì)算服務(wù)器支持8張或者16張GPU卡,每個(gè)服務(wù)器里面也配備了3.2Tb/s的RDMA網(wǎng)絡(luò)能力,提供高性能網(wǎng)絡(luò),來形成一個(gè)超大規(guī)模的緊耦合的計(jì)算,提升GPU計(jì)算效率。
并且,每一臺服務(wù)器還配有另外一張400Gb/s的網(wǎng)卡,來保障高效的訪問存儲以及通過VPC訪問其他的云產(chǎn)品。
能效方面,磐久服務(wù)器使用了超鈦金電源,能效比達(dá)到了97%。同時(shí),還研發(fā)一系列AI算法去預(yù)測GPU故障,故障預(yù)測準(zhǔn)確率達(dá)到了92%。通過這些努力,可實(shí)現(xiàn)主動性運(yùn)維或者遷移,從而達(dá)到連續(xù)訓(xùn)練有效時(shí)長超過99%的高水平。
CPFS端到端全鏈路性能提升。借助400Gb/s網(wǎng)卡以及RDMA通信的能力,CPFS可提供單個(gè)客戶端25GB/s吞吐,支持更大及更加頻繁的Checkpoint的寫,這可以更好地防止數(shù)據(jù)丟失,并提升訓(xùn)練的穩(wěn)定性和可靠性。
同時(shí),CPFS在計(jì)算側(cè)構(gòu)建了一個(gè)分布式緩存系統(tǒng)進(jìn)行加速。在后端則提供了400MB/s/TiB并行擴(kuò)展能力,性能隨著容量的擴(kuò)展而線性擴(kuò)展,在一個(gè)超大集群里可整體提供20TB/s的吞吐能力,這樣使得在大模型訓(xùn)練里面可以更快打Checkpoint,或者更快讀Checkpoint,以降低意外中斷對模型訓(xùn)練的整體影響。
另外,在今天多模態(tài)的訓(xùn)練里面,可能有大量的訓(xùn)練和推理數(shù)據(jù)在OSS里面,比如說客戶的圖片、視頻。CPFS既提供了相應(yīng)的文件接口,同時(shí)也提供與OSS之間高效的數(shù)據(jù)流動能力,通過冷熱數(shù)據(jù)分層進(jìn)一步為客戶節(jié)省成本。
03
云計(jì)算要高性能、高可用
對企業(yè)而言,云基礎(chǔ)設(shè)施更是保障業(yè)務(wù)連續(xù)性的關(guān)鍵。阿里云以高性能、高可用為目標(biāo),持續(xù)夯實(shí)基礎(chǔ)設(shè)施。
CIPU2.0全新升級
CIPU(Cloud Infrastructure Processing Unit)云基礎(chǔ)設(shè)施處理器,是云的產(chǎn)物,是一個(gè)云技術(shù)發(fā)展的創(chuàng)舉。從2017年開始阿里云就進(jìn)行了探索,CIPU成為阿里云基礎(chǔ)設(shè)施的基石,也是差異化競爭力的一個(gè)來源。
最新發(fā)布的CIPU2.0,在安全、穩(wěn)定性、性能等方面全面提升。
首先,CIPU2.0整機(jī)穩(wěn)定性提升20%,讓服務(wù)器更加穩(wěn)定;其次,CIPU2.0的帶寬從1.0的200Gb/s上升到2.0的400Gb/s,大幅提升VPC和eRDMA的能力,使得應(yīng)用在云上更加高效運(yùn)行;同時(shí),EBS存儲達(dá)到了360萬IOPS,從1.0的100萬上升到360萬,整體的吞吐也從原來的20GB/s上升到50GB/s,處在業(yè)界領(lǐng)先水平。
并且,CIPU2.0也全方位提升彈性計(jì)算的安全能力。CIPU2.0支持了多種可信任根,同時(shí)提供數(shù)據(jù)硬件加密能力,比如VPC通信可以通過CIPU2.0加密,在整個(gè)數(shù)據(jù)中心里面數(shù)據(jù)都是加密的,而訪問EBS的數(shù)據(jù)也是通過CIPU2.0進(jìn)行了加密。在這之上,CIPU2.0提供了整個(gè)可信的信任鏈以及可信的運(yùn)行環(huán)境。
此外,CIPU2.0應(yīng)用在GPU服務(wù)器里可提升推理效率,通過網(wǎng)絡(luò)和存儲等能力的增強(qiáng),跨機(jī)推理效率也會相應(yīng)提升。
ECS九代企業(yè)級實(shí)例發(fā)布
在通用計(jì)算領(lǐng)域,阿里云與英特爾、AMD緊密合作,基于最新芯片,融合CIPU2.0的架構(gòu),即將發(fā)布第九代ECS企業(yè)實(shí)例。與第八代英特爾實(shí)例相比,第九代g9i實(shí)例在Web應(yīng)用領(lǐng)域性能提升了20%,在數(shù)據(jù)庫領(lǐng)域性能提升了17%;與第八代AMD實(shí)例相比,第九代g9a實(shí)例在大數(shù)據(jù)場景領(lǐng)域里面提升了20%,在搜索和推薦里面場景里面提升30%。
除了X86、英特爾和AMD實(shí)例以外,阿里云也不斷在發(fā)展ARM實(shí)例,基于ARM的平頭哥倚天710服務(wù)器芯片進(jìn)行全棧優(yōu)化,使得倚天在若干個(gè)典型場景里面獲得性能優(yōu)勢。比如在大數(shù)據(jù)處理Spark場景下,倚天實(shí)例與第八代X86性能相比有14%的性能優(yōu)勢;在視頻轉(zhuǎn)碼領(lǐng)域,有30%的性能優(yōu)勢。
容器計(jì)算為AI加速
容器改變了整個(gè)軟件開發(fā)和部署的方式,成為一個(gè)新的開發(fā)范式。阿里云提供ACS容器計(jì)算服務(wù)以及ACK容器服務(wù),幫助客戶構(gòu)建、部署和管理容器化的應(yīng)用。
容器計(jì)算服務(wù)ACS是阿里云的一個(gè)創(chuàng)新,以K8s為用戶界面,提供了一個(gè)Serverless的容器服務(wù)。
ACS提供更加彈性的和柔性的計(jì)算的實(shí)例規(guī)格,比如可以從0.25個(gè)vCPU這樣一個(gè)小規(guī)模開始,以一個(gè)比較小的步長遞進(jìn),從而更加貼近應(yīng)用負(fù)載需求、降低成本;其次,創(chuàng)新支持CPU原地的熱變配,比如說當(dāng)你的應(yīng)用負(fù)載下降的時(shí)候,相應(yīng)的資源可動態(tài)下降達(dá)到既保障性能又降低成本的效果。
ACS的彈性能力也進(jìn)行了進(jìn)一步的擴(kuò)展,每分鐘可以進(jìn)行1萬個(gè)Pod擴(kuò)展。除了按量付費(fèi)以外,阿里云還提供了按天的節(jié)省計(jì)劃,費(fèi)用最多可節(jié)省50%以上。除此之外,今年年底,阿里云將提供基于GPU的ACS容器計(jì)算服務(wù),進(jìn)一步提升GPU的使用效率,降低成本,提高開發(fā)和運(yùn)維的效率。
ACK容器服務(wù)能力全面升級。首先結(jié)合分布式緩存Fluid,以及ACR容器鏡像服務(wù)P2P分發(fā)能力,大規(guī)模訓(xùn)練冷啟動時(shí)間降低85%以上。容器服務(wù)也深度集成了ECS的彈性RDMA的能力,總體上容器網(wǎng)絡(luò)的吞吐提升了30%。通過ACK擴(kuò)展節(jié)點(diǎn)進(jìn)行了一系列優(yōu)化,彈性擴(kuò)容的效率提升了25%。同時(shí),優(yōu)化K8s管控鏈,整體上ACK可以去管控15,000個(gè)計(jì)算節(jié)點(diǎn)的規(guī)模。
存儲面向AI深度優(yōu)化
在存儲領(lǐng)域,阿里云對象存儲OSS面向不同計(jì)算引擎、面向多種AI框架進(jìn)行了深度的集成,形成了統(tǒng)一的存儲。
OSS對象存儲上跑有2萬多個(gè)數(shù)據(jù)湖,可支持十余個(gè)不同的計(jì)算引擎及AI框架。OSS提供不同類型的冷、熱、歸檔存儲,并提供自動的Lifecycle(生命周期的管理)實(shí)現(xiàn)數(shù)據(jù)流轉(zhuǎn),實(shí)現(xiàn)成本優(yōu)化。除此之外,OSS針對AI及機(jī)器學(xué)習(xí)進(jìn)行大量優(yōu)化,并與大量開源分析引擎、阿里云分析產(chǎn)品等進(jìn)行集成,實(shí)現(xiàn)了高性能和簡單方便的集成。
面向AI/ML負(fù)載,OSS進(jìn)一步優(yōu)化,并推出4個(gè)不同的能力:
第一,升級了整體上SDK的能力,特別對Python和Go語言的SDK,性能提高30倍以上;
第二,OSS通過OSSFS提供了一個(gè)文件接口的訪問,直讀模式性能提升了3~6倍,給中小模型文件的訓(xùn)練或者推理提供一個(gè)很好的選擇;
第三,在OSS服務(wù)端提供OSS加速器,能夠把一些熱的數(shù)據(jù)放到OSS加速器里面,可以分發(fā)到更多的機(jī)器上面去;
第四,OSS也做了很多AI框架的連接器,能夠讓更多數(shù)據(jù)的預(yù)處理、數(shù)據(jù)的打標(biāo)、小模型的訓(xùn)練和推理變高效。
隨著AI技術(shù)和應(yīng)用的發(fā)展,使用OSS的模式發(fā)生了改變,OSS全新推出資源池QoS能力。一個(gè)常見的場景是客戶有多種不同的數(shù)據(jù),分布在不同的存儲桶(Bucket)里面,被多個(gè)業(yè)務(wù)方共享。這里需要提供多個(gè)桶之間性能的共享,但同時(shí)又保障不同業(yè)務(wù)的性能的隔離。
OSS提供了資源池QoS功能,一方面多個(gè)存儲桶形成一個(gè)資源池,共享疊加的性能;另一方面,靈活配置QoS策略,降低各個(gè)業(yè)務(wù)之間的相互影響。
高性能網(wǎng)絡(luò)持續(xù)演進(jìn)
在云網(wǎng)絡(luò)方面,穩(wěn)定的高性能至關(guān)重要,阿里云是如何破解高性能的穩(wěn)定性難題的?這里重點(diǎn)介紹一個(gè)跨區(qū)域的主動式重路由的技術(shù)。
當(dāng)網(wǎng)絡(luò)通信有擾動產(chǎn)生時(shí),系統(tǒng)會主動監(jiān)測出來,然后去把它重新路由到另外一條路徑上去。去年阿里云發(fā)布了跨區(qū)域的主動式重路由技術(shù)?,F(xiàn)在,這一技術(shù)已運(yùn)用到跨數(shù)據(jù)中心的通信里面來,從而在跨數(shù)據(jù)中心通信上,實(shí)現(xiàn)秒級內(nèi)重新路由,提供一個(gè)更加穩(wěn)定的網(wǎng)絡(luò)通信延遲。
04
讓基礎(chǔ)設(shè)施更易用、更智能
云計(jì)算既為企業(yè)提供服務(wù),同時(shí)也為開發(fā)者設(shè)計(jì),用戶的開發(fā)體驗(yàn)、開發(fā)效率、運(yùn)維效率至關(guān)重要。阿里云不斷演進(jìn)基礎(chǔ)設(shè)施、產(chǎn)品和服務(wù),使其更易用、更智能。
控制臺是用戶上云第一入口。近年來,阿里云在控制臺操作的簡易性、效率等方面作了大量優(yōu)化,讓用戶在使用控制臺的時(shí)候有更好的體驗(yàn)。同時(shí),推出多種AI助手,進(jìn)行智能推薦和智能問答。此外,還提供了Infrastructure as Code等能力,通過構(gòu)建更多的CloudOps工具,來幫助客戶提升部署、管理和運(yùn)維的效率。
對企業(yè)和開發(fā)者而言,會非常關(guān)心兩件事情:第一件事情是自己的應(yīng)用跑得怎么樣?第二件事是使用阿里云的產(chǎn)品和服務(wù),性能、容量、規(guī)模到底怎么樣?這是可觀測性的關(guān)注重點(diǎn)。通過一系列的CloudLens的服務(wù),阿里云幫助客戶分析可用性、性能、成本、容量、安全等,從而提升運(yùn)維效率、提高業(yè)務(wù)系統(tǒng)穩(wěn)定性、降低成本。