阿里云張彭城:阿里高性能網(wǎng)絡(luò)探索與實(shí)踐

來源: IT之家
作者:IT之家
時(shí)間:2021-10-09
17536
9月25日,2021中國智能網(wǎng)卡研討會(huì)在北京隆重召開。本屆大會(huì)由“科創(chuàng)中國”未來網(wǎng)絡(luò)專業(yè)科技服務(wù)團(tuán)指導(dǎo),江蘇省未來網(wǎng)絡(luò)創(chuàng)新研究院、網(wǎng)絡(luò)通信與安全紫金山實(shí)驗(yàn)室聯(lián)合主辦,SDNLAB社區(qū)承辦。阿里云基礎(chǔ)設(shè)施事業(yè)部高性能網(wǎng)絡(luò)團(tuán)隊(duì)高級技術(shù)專家張彭城先生帶來了演講“阿里高性能網(wǎng)絡(luò)探索與實(shí)踐”。

9月25日,2021中國智能網(wǎng)卡研討會(huì)在北京隆重召開。本屆大會(huì)由“科創(chuàng)中國”未來網(wǎng)絡(luò)專業(yè)科技服務(wù)團(tuán)指導(dǎo),江蘇省未來網(wǎng)絡(luò)創(chuàng)新研究院、網(wǎng)絡(luò)通信與安全紫金山實(shí)驗(yàn)室聯(lián)合主辦,SDNLAB社區(qū)承辦。阿里云基礎(chǔ)設(shè)施事業(yè)部高性能網(wǎng)絡(luò)團(tuán)隊(duì)高級技術(shù)專家張彭城先生帶來了演講“阿里高性能網(wǎng)絡(luò)探索與實(shí)踐”。

張彭城指出,數(shù)據(jù)中心發(fā)展更偏向于應(yīng)用的發(fā)展,數(shù)據(jù)中心發(fā)展的三個(gè)階段:一是企業(yè)網(wǎng)絡(luò)為主,在這個(gè)階段廠商的設(shè)備為主導(dǎo),人肉運(yùn)營。二是隨著互聯(lián)網(wǎng)應(yīng)用的發(fā)展,出現(xiàn)了Scale out超大規(guī)模、軟件定義網(wǎng)絡(luò)、虛擬化、白盒化、運(yùn)營自動(dòng)化等技術(shù)。三是隨著云計(jì)算的發(fā)展,對數(shù)據(jù)中心網(wǎng)絡(luò)提出更高的要求,對于彈性、供給、利用率提出更高的要求。

2013-2017年,阿里數(shù)據(jù)中心網(wǎng)絡(luò)正式進(jìn)入1.0時(shí)代,企業(yè)級網(wǎng)絡(luò)架構(gòu)主要是架構(gòu)標(biāo)準(zhǔn)化、模塊化、網(wǎng)絡(luò)虛擬化。

2017-2019年,互聯(lián)網(wǎng)級網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)了超大規(guī)模、高可靠、高性能、成本優(yōu)化。通過自主研發(fā)軟硬件設(shè)備,實(shí)現(xiàn)自主可控?;诖髷?shù)據(jù)的自動(dòng)化智能化,實(shí)現(xiàn)運(yùn)營自動(dòng)化。

張彭城重點(diǎn)介紹了阿里云的Network 3.0階段。未來面向超大規(guī)模云計(jì)算場景該如何支撐數(shù)據(jù)中心網(wǎng)絡(luò)?阿里云提出了池化數(shù)據(jù)中心網(wǎng)絡(luò)理念。

原有的數(shù)據(jù)中心架構(gòu)存在資源利用率低、機(jī)型演進(jìn)復(fù)雜、運(yùn)維成本高、可擴(kuò)展性差等問題。池化數(shù)據(jù)中心網(wǎng)絡(luò)是把所有的CPU、內(nèi)存、xPU、storage全部解耦,通過網(wǎng)絡(luò)把它連起來,但實(shí)現(xiàn)起來也比較復(fù)雜。池化數(shù)據(jù)中心受網(wǎng)絡(luò)的影響非常大。以AI應(yīng)用為例,高速網(wǎng)絡(luò)的性能損耗遠(yuǎn)遠(yuǎn)低于低速網(wǎng)絡(luò)性能損耗,因此池化數(shù)據(jù)中心的實(shí)現(xiàn)必須依靠高性能網(wǎng)絡(luò)。

張彭城指出,數(shù)據(jù)中心網(wǎng)絡(luò)的最大挑戰(zhàn)是它的時(shí)延,主要體現(xiàn)在主機(jī)協(xié)議棧的處理和交換機(jī)擁塞引入動(dòng)態(tài)延時(shí)兩個(gè)方面。我們要提升數(shù)據(jù)中心網(wǎng)絡(luò)的性能,最主要是從這兩方面去著手和優(yōu)化。

高性能網(wǎng)絡(luò)的核心思想是端網(wǎng)協(xié)同,端側(cè)是通過網(wǎng)卡和DPU硬件卸載網(wǎng)絡(luò)協(xié)議棧,提升網(wǎng)絡(luò)性能。網(wǎng)側(cè)需要提供精確網(wǎng)絡(luò)信息的反饋,讓端側(cè)可以做更高效的流控以及路徑選擇。通過端網(wǎng)協(xié)同的網(wǎng)絡(luò)流控,多路徑優(yōu)化和全鏈路網(wǎng)絡(luò)QoS等機(jī)制來降低網(wǎng)絡(luò)動(dòng)態(tài)延時(shí),減少網(wǎng)絡(luò)擁塞,故障時(shí)快速切換,保障大小流之間的公平性,有效處理網(wǎng)絡(luò)incast。

阿里高性能網(wǎng)絡(luò)的探索和演進(jìn)分為三個(gè)階段。

第一階段(2017年-2018年),RDMA大規(guī)模落地。

1、RDMA在阿里云多個(gè)產(chǎn)品實(shí)現(xiàn)大規(guī)模落地;

2、端到端的流控,應(yīng)用性能調(diào)優(yōu);

3、消除RDMA穩(wěn)定性風(fēng)險(xiǎn):建立端網(wǎng)協(xié)同的運(yùn)營體系,消除PFC風(fēng)險(xiǎn)。

第二階段(2019~2020):自研之路。

1、自研高性能網(wǎng)絡(luò)協(xié)議:HPCC擁塞控制算法、Multi-path、xRD傳輸方式,去PFC實(shí)現(xiàn)Lossy RDMA,進(jìn)一步優(yōu)化長尾延時(shí),增加RDMA擴(kuò)展性;

2、自研高性能網(wǎng)卡:實(shí)現(xiàn)自研高性能網(wǎng)絡(luò)協(xié)議卸載,目前已經(jīng)落地云存儲(chǔ);

3、自研高性能通信庫:針對大規(guī)模AI集群,優(yōu)化集合通信功能,利用端網(wǎng)融合技術(shù)深度結(jié)合大規(guī)模AI集群的互聯(lián)架構(gòu)和多網(wǎng)卡特性,實(shí)現(xiàn)創(chuàng)新的無擁塞算法和高速網(wǎng)絡(luò)傳輸。

第三階段(2021~):總線+網(wǎng)絡(luò)融合。

這個(gè)階段阿里已經(jīng)進(jìn)行兩年的探索,并進(jìn)行了大量的POC,但是仍有很多待突破難題,張彭城主要分享了阿里在探索過程中遇到的一些問題,有些已經(jīng)有了解決思路,有些可能還是需要業(yè)界一起去推動(dòng):

1、協(xié)議融合:是使用總線協(xié)議擴(kuò)展,還是PCIE/CXL over Ethernet?總線和網(wǎng)絡(luò)的邊界在哪里?性能和擴(kuò)展性問題如何trade-off?

2、硬件載體:是用SmartNIC?DPU?還是Switch?DPU作為數(shù)據(jù)處理單元,而switch作為數(shù)據(jù)匯聚的點(diǎn),是否DPU位于switch更為合適?

3、網(wǎng)絡(luò)架構(gòu):Fat-tree是否還適用?目前主流的數(shù)據(jù)中心架構(gòu)主要解決了大規(guī)模Scale-out問題,但是它的層數(shù)和跳數(shù)非常多,可能無法滿足池化網(wǎng)絡(luò)的延時(shí)要求,是否可以考慮其他的拓?fù)浼軜?gòu)?

張彭城表示,未來實(shí)現(xiàn)極致池化數(shù)據(jù)中心還有很多難題需要處理,希望可以跟大家共同探討

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于IT之家,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
阿里云助力《誅仙世界》端游正式開服!
阿里云助力《誅仙世界》端游正式開服!
近?,完美世界游戲歷時(shí)多年打造的新國?仙俠MMORPG端游《誅仙世界》在阿?云上正式開服。
阿里云
云服務(wù)
2024-12-292024-12-29
一文詳解阿里云AI大基建
一文詳解阿里云AI大基建
面向AI時(shí)代,阿里云基礎(chǔ)設(shè)施是如何創(chuàng)新與發(fā)展的?計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)、服務(wù)器、集群、可觀測等,阿里云全新升級的AI Infra到底有哪些重磅更新?
阿里云
云服務(wù)
2024-11-022024-11-02
AI時(shí)代云安全新范式,阿里云安全能力全線升級!
AI時(shí)代云安全新范式,阿里云安全能力全線升級!
AI時(shí)代,云安全面臨著新的挑戰(zhàn),不僅要持續(xù)面對以往的傳統(tǒng)問題,更需要全新理念落地于產(chǎn)品設(shè)計(jì)、技術(shù)演進(jìn)、架構(gòu)設(shè)計(jì),才能實(shí)現(xiàn)效果、性能、和成本的最優(yōu)解。
AI
阿里云
云服務(wù)
2024-09-272024-09-27
連續(xù)四年!阿里云領(lǐng)跑中國公有云大數(shù)據(jù)平臺
連續(xù)四年!阿里云領(lǐng)跑中國公有云大數(shù)據(jù)平臺
近日,國際數(shù)據(jù)公司(IDC)發(fā)布《中國大數(shù)據(jù)平臺市場份額,2023:數(shù)智融合時(shí)代的真正到來》報(bào)告——2023年中國大數(shù)據(jù)平臺公有云服務(wù)市場規(guī)模達(dá)72.2億元人民幣,其中阿里巴巴市場份額保持領(lǐng)先,占比達(dá)40.2%,連續(xù)四年排名第一。
阿里云
云服務(wù)
2024-09-182024-09-18
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個(gè)人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家