一文詳解阿里云AI大基建

來源：阿里云

作者：阿里云

時間：2024-11-02

面向AI時代，阿里云基礎(chǔ)設(shè)施是如何創(chuàng)新與發(fā)展的？計算、網(wǎng)絡(luò)、存儲、服務(wù)器、集群、可觀測等，阿里云全新升級的AI Infra到底有哪些重磅更新？

編者按：面向AI時代，阿里云基礎(chǔ)設(shè)施是如何創(chuàng)新與發(fā)展的？計算、網(wǎng)絡(luò)、存儲、服務(wù)器、集群、可觀測等，阿里云全新升級的AI Infra到底有哪些重磅更新？基于阿里云副總裁、彈性計算和存儲產(chǎn)品線負(fù)責(zé)人吳結(jié)生在2024云棲大會上的演講，本文詳解阿里云在AI時代的數(shù)字基礎(chǔ)設(shè)施大布局和新進(jìn)展。

AI時代需要什么樣的云基礎(chǔ)設(shè)施？

云計算一直在踐行Scaling Law，為千行百業(yè)的數(shù)字化升級提供大規(guī)模可擴展的算力、存力及網(wǎng)絡(luò)等資源，滿足客戶業(yè)務(wù)規(guī)模的擴展、AI模型的擴展等需求。云計算讓AI變得更普惠，幫助客戶在云上更加容易使用AI技術(shù)。

目前，中國有超過50%的大模型公司跑在阿里云上，80%的科技企業(yè)運行在阿里云上。AI發(fā)展對云基礎(chǔ)設(shè)施提出了新要求：

首先，AI負(fù)載對計算提出了更大需求。一些前沿的大模型訓(xùn)練，每一年對算力需求的增長大概有4-5倍。比如Llama-3.1-405B，對算力的需求較Llama2.0提升了50倍。IDC數(shù)據(jù)也顯示，最近幾年中國智算的算力復(fù)合增長率為33.9%。

其次，AI負(fù)載對存儲也提出了更高的需求。隨著模型參數(shù)每年10倍增長，模型的數(shù)據(jù)集每年達(dá)到50倍增長，都需要更高性能的存力。

在模型訓(xùn)練過程里面，需要不停去打一些Checkpoint，大小從幾GB到幾十GB，再到今天的幾十TB，頻率從小時或者幾十分鐘，到現(xiàn)在可能每一分鐘就要打一個Checkpoint。同時，大模型文件不斷更新，怎么樣在一個大規(guī)模的環(huán)境里面去分發(fā)和同步這些模型文件，對整個存儲提出了更高的要求。

所以，隨著AI技術(shù)的發(fā)展，云計算跟AI更緊密地融合，對阿里云基礎(chǔ)設(shè)施提出了更高的要求。作為一個新形態(tài)的阿里云的基礎(chǔ)設(shè)施，要具備三個特征：

第一，大規(guī)模、高性價比的AI基礎(chǔ)設(shè)施，滿足訓(xùn)練和推理需求。

第二，高性能、高可用的基礎(chǔ)設(shè)施，實現(xiàn)業(yè)務(wù)的發(fā)展，保障業(yè)務(wù)的連續(xù)性。

第三，更易用、更智能的基礎(chǔ)設(shè)施，提高開發(fā)效率和運維效率。

AI Infra要大規(guī)模、高性價比

阿里云構(gòu)建了完整的AI基礎(chǔ)設(shè)施，來滿足訓(xùn)練和推理的規(guī)模化發(fā)展需求：

計算、存儲、網(wǎng)絡(luò)和安全等產(chǎn)品和服務(wù)，是堅實的基礎(chǔ)；在此之上，通過先進(jìn)的容器化技術(shù)進(jìn)行算力的編排和管理；進(jìn)而，通過AI智算平臺PAI來進(jìn)行任務(wù)調(diào)度、編譯優(yōu)化，實現(xiàn)彈性擴展、容錯以及遷移等能力，打造完整的阿里云AI技術(shù)服務(wù)棧。

在這個服務(wù)棧里面，阿里云進(jìn)行了全棧優(yōu)化，以提升系統(tǒng)穩(wěn)定性和計算效率，整體AI基礎(chǔ)設(shè)施的連續(xù)訓(xùn)練有效時長達(dá)到99%，處于業(yè)界領(lǐng)先水平。

同時，通過通信、編譯、顯存使用等方面的優(yōu)化來提升GPU使用的效率，整個GPU的使用效率MFU（Model FLOPs Utilization）提升了20%以上。

為支撐大規(guī)模的模型訓(xùn)練和推理，阿里云打造了靈駿超級智算集群，主要包含四個重要組件：靈駿計算集群、HPN高性能網(wǎng)絡(luò)、磐久AI計算服務(wù)器，以及CPFS高性能存儲集群。

靈駿計算集群提供可擴容到10萬張GPU卡規(guī)模的能力，同時在萬卡的規(guī)模下性能線性增長率達(dá)到了96%，性能網(wǎng)絡(luò)吞吐的有效使用率也達(dá)到了99%?；贑PFS，靈駿可提供20TB/S的超高吞吐并行存儲能力。

靈駿集群采用了HPN7.0網(wǎng)絡(luò)架構(gòu)。HPN7.0架構(gòu)是一個多軌和多平面的網(wǎng)絡(luò)設(shè)計，可以支持單集群擴展到10萬張卡的規(guī)模，并提升GPU計算效率。每臺機器通過3.2Tb/s的高性能RDMA網(wǎng)絡(luò)連接，保障了在大規(guī)模GPU集群聯(lián)合的計算效率的提升。

同時，阿里云做了一系列網(wǎng)絡(luò)方面的創(chuàng)新和優(yōu)化，比如自研的Solar RDMA協(xié)議，提供了自適應(yīng)的多路徑的選擇；自研HPCC的流控算法；網(wǎng)卡的自研和通信庫的優(yōu)化等等。通過這一系列網(wǎng)絡(luò)的優(yōu)化，實現(xiàn)在訓(xùn)練過程中最關(guān)鍵的集群通訊能力1倍的提升、對端到端的訓(xùn)練整體的性能提升10%以上的效果。

新升級磐久AI計算服務(wù)器。最新的磐久AI計算服務(wù)器支持8張或者16張GPU卡，每個服務(wù)器里面也配備了3.2Tb/s的RDMA網(wǎng)絡(luò)能力，提供高性能網(wǎng)絡(luò)，來形成一個超大規(guī)模的緊耦合的計算，提升GPU計算效率。

并且，每一臺服務(wù)器還配有另外一張400Gb/s的網(wǎng)卡，來保障高效的訪問存儲以及通過VPC訪問其他的云產(chǎn)品。

能效方面，磐久服務(wù)器使用了超鈦金電源，能效比達(dá)到了97%。同時，還研發(fā)一系列AI算法去預(yù)測GPU故障，故障預(yù)測準(zhǔn)確率達(dá)到了92%。通過這些努力，可實現(xiàn)主動性運維或者遷移，從而達(dá)到連續(xù)訓(xùn)練有效時長超過99%的高水平。

CPFS端到端全鏈路性能提升。借助400Gb/s網(wǎng)卡以及RDMA通信的能力，CPFS可提供單個客戶端25GB/s吞吐，支持更大及更加頻繁的Checkpoint的寫，這可以更好地防止數(shù)據(jù)丟失，并提升訓(xùn)練的穩(wěn)定性和可靠性。

同時，CPFS在計算側(cè)構(gòu)建了一個分布式緩存系統(tǒng)進(jìn)行加速。在后端則提供了400MB/s/TiB并行擴展能力，性能隨著容量的擴展而線性擴展，在一個超大集群里可整體提供20TB/s的吞吐能力，這樣使得在大模型訓(xùn)練里面可以更快打Checkpoint，或者更快讀Checkpoint，以降低意外中斷對模型訓(xùn)練的整體影響。

另外，在今天多模態(tài)的訓(xùn)練里面，可能有大量的訓(xùn)練和推理數(shù)據(jù)在OSS里面，比如說客戶的圖片、視頻。CPFS既提供了相應(yīng)的文件接口，同時也提供與OSS之間高效的數(shù)據(jù)流動能力，通過冷熱數(shù)據(jù)分層進(jìn)一步為客戶節(jié)省成本。

云計算要高性能、高可用

對企業(yè)而言，云基礎(chǔ)設(shè)施更是保障業(yè)務(wù)連續(xù)性的關(guān)鍵。阿里云以高性能、高可用為目標(biāo)，持續(xù)夯實基礎(chǔ)設(shè)施。

CIPU2.0全新升級

CIPU（Cloud Infrastructure Processing Unit）云基礎(chǔ)設(shè)施處理器，是云的產(chǎn)物，是一個云技術(shù)發(fā)展的創(chuàng)舉。從2017年開始阿里云就進(jìn)行了探索，CIPU成為阿里云基礎(chǔ)設(shè)施的基石，也是差異化競爭力的一個來源。

最新發(fā)布的CIPU2.0，在安全、穩(wěn)定性、性能等方面全面提升。

首先，CIPU2.0整機穩(wěn)定性提升20%，讓服務(wù)器更加穩(wěn)定；其次，CIPU2.0的帶寬從1.0的200Gb/s上升到2.0的400Gb/s，大幅提升VPC和eRDMA的能力，使得應(yīng)用在云上更加高效運行；同時，EBS存儲達(dá)到了360萬IOPS，從1.0的100萬上升到360萬，整體的吞吐也從原來的20GB/s上升到50GB/s，處在業(yè)界領(lǐng)先水平。

并且，CIPU2.0也全方位提升彈性計算的安全能力。CIPU2.0支持了多種可信任根，同時提供數(shù)據(jù)硬件加密能力，比如VPC通信可以通過CIPU2.0加密，在整個數(shù)據(jù)中心里面數(shù)據(jù)都是加密的，而訪問EBS的數(shù)據(jù)也是通過CIPU2.0進(jìn)行了加密。在這之上，CIPU2.0提供了整個可信的信任鏈以及可信的運行環(huán)境。

此外，CIPU2.0應(yīng)用在GPU服務(wù)器里可提升推理效率，通過網(wǎng)絡(luò)和存儲等能力的增強，跨機推理效率也會相應(yīng)提升。

ECS九代企業(yè)級實例發(fā)布

在通用計算領(lǐng)域，阿里云與英特爾、AMD緊密合作，基于最新芯片，融合CIPU2.0的架構(gòu)，即將發(fā)布第九代ECS企業(yè)實例。與第八代英特爾實例相比，第九代g9i實例在Web應(yīng)用領(lǐng)域性能提升了20%，在數(shù)據(jù)庫領(lǐng)域性能提升了17%；與第八代AMD實例相比，第九代g9a實例在大數(shù)據(jù)場景領(lǐng)域里面提升了20%，在搜索和推薦里面場景里面提升30%。

除了X86、英特爾和AMD實例以外，阿里云也不斷在發(fā)展ARM實例，基于ARM的平頭哥倚天710服務(wù)器芯片進(jìn)行全棧優(yōu)化，使得倚天在若干個典型場景里面獲得性能優(yōu)勢。比如在大數(shù)據(jù)處理Spark場景下，倚天實例與第八代X86性能相比有14%的性能優(yōu)勢；在視頻轉(zhuǎn)碼領(lǐng)域，有30%的性能優(yōu)勢。

容器計算為AI加速

容器改變了整個軟件開發(fā)和部署的方式，成為一個新的開發(fā)范式。阿里云提供ACS容器計算服務(wù)以及ACK容器服務(wù)，幫助客戶構(gòu)建、部署和管理容器化的應(yīng)用。

容器計算服務(wù)ACS是阿里云的一個創(chuàng)新，以K8s為用戶界面，提供了一個Serverless的容器服務(wù)。

ACS提供更加彈性的和柔性的計算的實例規(guī)格，比如可以從0.25個vCPU這樣一個小規(guī)模開始，以一個比較小的步長遞進(jìn)，從而更加貼近應(yīng)用負(fù)載需求、降低成本；其次，創(chuàng)新支持CPU原地的熱變配，比如說當(dāng)你的應(yīng)用負(fù)載下降的時候，相應(yīng)的資源可動態(tài)下降達(dá)到既保障性能又降低成本的效果。

ACS的彈性能力也進(jìn)行了進(jìn)一步的擴展，每分鐘可以進(jìn)行1萬個Pod擴展。除了按量付費以外，阿里云還提供了按天的節(jié)省計劃，費用最多可節(jié)省50%以上。除此之外，今年年底，阿里云將提供基于GPU的ACS容器計算服務(wù)，進(jìn)一步提升GPU的使用效率，降低成本，提高開發(fā)和運維的效率。

ACK容器服務(wù)能力全面升級。首先結(jié)合分布式緩存Fluid，以及ACR容器鏡像服務(wù)P2P分發(fā)能力，大規(guī)模訓(xùn)練冷啟動時間降低85%以上。容器服務(wù)也深度集成了ECS的彈性RDMA的能力，總體上容器網(wǎng)絡(luò)的吞吐提升了30%。通過ACK擴展節(jié)點進(jìn)行了一系列優(yōu)化，彈性擴容的效率提升了25%。同時，優(yōu)化K8s管控鏈，整體上ACK可以去管控15,000個計算節(jié)點的規(guī)模。

存儲面向AI深度優(yōu)化

在存儲領(lǐng)域，阿里云對象存儲OSS面向不同計算引擎、面向多種AI框架進(jìn)行了深度的集成，形成了統(tǒng)一的存儲。

OSS對象存儲上跑有2萬多個數(shù)據(jù)湖，可支持十余個不同的計算引擎及AI框架。OSS提供不同類型的冷、熱、歸檔存儲，并提供自動的Lifecycle（生命周期的管理）實現(xiàn)數(shù)據(jù)流轉(zhuǎn)，實現(xiàn)成本優(yōu)化。除此之外，OSS針對AI及機器學(xué)習(xí)進(jìn)行大量優(yōu)化，并與大量開源分析引擎、阿里云分析產(chǎn)品等進(jìn)行集成，實現(xiàn)了高性能和簡單方便的集成。

面向AI/ML負(fù)載，OSS進(jìn)一步優(yōu)化，并推出4個不同的能力：

第一，升級了整體上SDK的能力，特別對Python和Go語言的SDK，性能提高30倍以上；

第二，OSS通過OSSFS提供了一個文件接口的訪問，直讀模式性能提升了3~6倍，給中小模型文件的訓(xùn)練或者推理提供一個很好的選擇；

第三，在OSS服務(wù)端提供OSS加速器，能夠把一些熱的數(shù)據(jù)放到OSS加速器里面，可以分發(fā)到更多的機器上面去；

第四，OSS也做了很多AI框架的連接器，能夠讓更多數(shù)據(jù)的預(yù)處理、數(shù)據(jù)的打標(biāo)、小模型的訓(xùn)練和推理變高效。

隨著AI技術(shù)和應(yīng)用的發(fā)展，使用OSS的模式發(fā)生了改變，OSS全新推出資源池QoS能力。一個常見的場景是客戶有多種不同的數(shù)據(jù)，分布在不同的存儲桶（Bucket）里面，被多個業(yè)務(wù)方共享。這里需要提供多個桶之間性能的共享，但同時又保障不同業(yè)務(wù)的性能的隔離。

OSS提供了資源池QoS功能，一方面多個存儲桶形成一個資源池，共享疊加的性能；另一方面，靈活配置QoS策略，降低各個業(yè)務(wù)之間的相互影響。

高性能網(wǎng)絡(luò)持續(xù)演進(jìn)

在云網(wǎng)絡(luò)方面，穩(wěn)定的高性能至關(guān)重要，阿里云是如何破解高性能的穩(wěn)定性難題的？這里重點介紹一個跨區(qū)域的主動式重路由的技術(shù)。

當(dāng)網(wǎng)絡(luò)通信有擾動產(chǎn)生時，系統(tǒng)會主動監(jiān)測出來，然后去把它重新路由到另外一條路徑上去。去年阿里云發(fā)布了跨區(qū)域的主動式重路由技術(shù)。現(xiàn)在，這一技術(shù)已運用到跨數(shù)據(jù)中心的通信里面來，從而在跨數(shù)據(jù)中心通信上，實現(xiàn)秒級內(nèi)重新路由，提供一個更加穩(wěn)定的網(wǎng)絡(luò)通信延遲。

讓基礎(chǔ)設(shè)施更易用、更智能

云計算既為企業(yè)提供服務(wù)，同時也為開發(fā)者設(shè)計，用戶的開發(fā)體驗、開發(fā)效率、運維效率至關(guān)重要。阿里云不斷演進(jìn)基礎(chǔ)設(shè)施、產(chǎn)品和服務(wù)，使其更易用、更智能。

控制臺是用戶上云第一入口。近年來，阿里云在控制臺操作的簡易性、效率等方面作了大量優(yōu)化，讓用戶在使用控制臺的時候有更好的體驗。同時，推出多種AI助手，進(jìn)行智能推薦和智能問答。此外，還提供了Infrastructure as Code等能力，通過構(gòu)建更多的CloudOps工具，來幫助客戶提升部署、管理和運維的效率。

對企業(yè)和開發(fā)者而言，會非常關(guān)心兩件事情：第一件事情是自己的應(yīng)用跑得怎么樣？第二件事是使用阿里云的產(chǎn)品和服務(wù)，性能、容量、規(guī)模到底怎么樣？這是可觀測性的關(guān)注重點。通過一系列的CloudLens的服務(wù)，阿里云幫助客戶分析可用性、性能、成本、容量、安全等，從而提升運維效率、提高業(yè)務(wù)系統(tǒng)穩(wěn)定性、降低成本。