阿里云張彭城:阿里高性能網(wǎng)絡(luò)探索與實踐

來源: IT之家
作者:IT之家
時間:2021-10-09
17562
9月25日,2021中國智能網(wǎng)卡研討會在北京隆重召開。本屆大會由“科創(chuàng)中國”未來網(wǎng)絡(luò)專業(yè)科技服務(wù)團指導(dǎo),江蘇省未來網(wǎng)絡(luò)創(chuàng)新研究院、網(wǎng)絡(luò)通信與安全紫金山實驗室聯(lián)合主辦,SDNLAB社區(qū)承辦。阿里云基礎(chǔ)設(shè)施事業(yè)部高性能網(wǎng)絡(luò)團隊高級技術(shù)專家張彭城先生帶來了演講“阿里高性能網(wǎng)絡(luò)探索與實踐”。

9月25日,2021中國智能網(wǎng)卡研討會在北京隆重召開。本屆大會由“科創(chuàng)中國”未來網(wǎng)絡(luò)專業(yè)科技服務(wù)團指導(dǎo),江蘇省未來網(wǎng)絡(luò)創(chuàng)新研究院、網(wǎng)絡(luò)通信與安全紫金山實驗室聯(lián)合主辦,SDNLAB社區(qū)承辦。阿里云基礎(chǔ)設(shè)施事業(yè)部高性能網(wǎng)絡(luò)團隊高級技術(shù)專家張彭城先生帶來了演講“阿里高性能網(wǎng)絡(luò)探索與實踐”。

張彭城指出,數(shù)據(jù)中心發(fā)展更偏向于應(yīng)用的發(fā)展,數(shù)據(jù)中心發(fā)展的三個階段:一是企業(yè)網(wǎng)絡(luò)為主,在這個階段廠商的設(shè)備為主導(dǎo),人肉運營。二是隨著互聯(lián)網(wǎng)應(yīng)用的發(fā)展,出現(xiàn)了Scale out超大規(guī)模、軟件定義網(wǎng)絡(luò)、虛擬化、白盒化、運營自動化等技術(shù)。三是隨著云計算的發(fā)展,對數(shù)據(jù)中心網(wǎng)絡(luò)提出更高的要求,對于彈性、供給、利用率提出更高的要求。

2013-2017年,阿里數(shù)據(jù)中心網(wǎng)絡(luò)正式進入1.0時代,企業(yè)級網(wǎng)絡(luò)架構(gòu)主要是架構(gòu)標準化、模塊化、網(wǎng)絡(luò)虛擬化。

2017-2019年,互聯(lián)網(wǎng)級網(wǎng)絡(luò)架構(gòu)實現(xiàn)了超大規(guī)模、高可靠、高性能、成本優(yōu)化。通過自主研發(fā)軟硬件設(shè)備,實現(xiàn)自主可控?;诖髷?shù)據(jù)的自動化智能化,實現(xiàn)運營自動化。

張彭城重點介紹了阿里云的Network 3.0階段。未來面向超大規(guī)模云計算場景該如何支撐數(shù)據(jù)中心網(wǎng)絡(luò)?阿里云提出了池化數(shù)據(jù)中心網(wǎng)絡(luò)理念。

原有的數(shù)據(jù)中心架構(gòu)存在資源利用率低、機型演進復(fù)雜、運維成本高、可擴展性差等問題。池化數(shù)據(jù)中心網(wǎng)絡(luò)是把所有的CPU、內(nèi)存、xPU、storage全部解耦,通過網(wǎng)絡(luò)把它連起來,但實現(xiàn)起來也比較復(fù)雜。池化數(shù)據(jù)中心受網(wǎng)絡(luò)的影響非常大。以AI應(yīng)用為例,高速網(wǎng)絡(luò)的性能損耗遠遠低于低速網(wǎng)絡(luò)性能損耗,因此池化數(shù)據(jù)中心的實現(xiàn)必須依靠高性能網(wǎng)絡(luò)。

張彭城指出,數(shù)據(jù)中心網(wǎng)絡(luò)的最大挑戰(zhàn)是它的時延,主要體現(xiàn)在主機協(xié)議棧的處理和交換機擁塞引入動態(tài)延時兩個方面。我們要提升數(shù)據(jù)中心網(wǎng)絡(luò)的性能,最主要是從這兩方面去著手和優(yōu)化。

高性能網(wǎng)絡(luò)的核心思想是端網(wǎng)協(xié)同,端側(cè)是通過網(wǎng)卡和DPU硬件卸載網(wǎng)絡(luò)協(xié)議棧,提升網(wǎng)絡(luò)性能。網(wǎng)側(cè)需要提供精確網(wǎng)絡(luò)信息的反饋,讓端側(cè)可以做更高效的流控以及路徑選擇。通過端網(wǎng)協(xié)同的網(wǎng)絡(luò)流控,多路徑優(yōu)化和全鏈路網(wǎng)絡(luò)QoS等機制來降低網(wǎng)絡(luò)動態(tài)延時,減少網(wǎng)絡(luò)擁塞,故障時快速切換,保障大小流之間的公平性,有效處理網(wǎng)絡(luò)incast。

阿里高性能網(wǎng)絡(luò)的探索和演進分為三個階段。

第一階段(2017年-2018年),RDMA大規(guī)模落地。

1、RDMA在阿里云多個產(chǎn)品實現(xiàn)大規(guī)模落地;

2、端到端的流控,應(yīng)用性能調(diào)優(yōu);

3、消除RDMA穩(wěn)定性風險:建立端網(wǎng)協(xié)同的運營體系,消除PFC風險。

第二階段(2019~2020):自研之路。

1、自研高性能網(wǎng)絡(luò)協(xié)議:HPCC擁塞控制算法、Multi-path、xRD傳輸方式,去PFC實現(xiàn)Lossy RDMA,進一步優(yōu)化長尾延時,增加RDMA擴展性;

2、自研高性能網(wǎng)卡:實現(xiàn)自研高性能網(wǎng)絡(luò)協(xié)議卸載,目前已經(jīng)落地云存儲;

3、自研高性能通信庫:針對大規(guī)模AI集群,優(yōu)化集合通信功能,利用端網(wǎng)融合技術(shù)深度結(jié)合大規(guī)模AI集群的互聯(lián)架構(gòu)和多網(wǎng)卡特性,實現(xiàn)創(chuàng)新的無擁塞算法和高速網(wǎng)絡(luò)傳輸。

第三階段(2021~):總線+網(wǎng)絡(luò)融合。

這個階段阿里已經(jīng)進行兩年的探索,并進行了大量的POC,但是仍有很多待突破難題,張彭城主要分享了阿里在探索過程中遇到的一些問題,有些已經(jīng)有了解決思路,有些可能還是需要業(yè)界一起去推動:

1、協(xié)議融合:是使用總線協(xié)議擴展,還是PCIE/CXL over Ethernet?總線和網(wǎng)絡(luò)的邊界在哪里?性能和擴展性問題如何trade-off?

2、硬件載體:是用SmartNIC?DPU?還是Switch?DPU作為數(shù)據(jù)處理單元,而switch作為數(shù)據(jù)匯聚的點,是否DPU位于switch更為合適?

3、網(wǎng)絡(luò)架構(gòu):Fat-tree是否還適用?目前主流的數(shù)據(jù)中心架構(gòu)主要解決了大規(guī)模Scale-out問題,但是它的層數(shù)和跳數(shù)非常多,可能無法滿足池化網(wǎng)絡(luò)的延時要求,是否可以考慮其他的拓撲架構(gòu)?

張彭城表示,未來實現(xiàn)極致池化數(shù)據(jù)中心還有很多難題需要處理,希望可以跟大家共同探討

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于IT之家,本站不擁有所有權(quán),不承擔相關(guān)法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
阿里云助力《誅仙世界》端游正式開服!
阿里云助力《誅仙世界》端游正式開服!
近?,完美世界游戲歷時多年打造的新國?仙俠MMORPG端游《誅仙世界》在阿?云上正式開服。
阿里云
云服務(wù)
2024-12-292024-12-29
一文詳解阿里云AI大基建
一文詳解阿里云AI大基建
面向AI時代,阿里云基礎(chǔ)設(shè)施是如何創(chuàng)新與發(fā)展的?計算、網(wǎng)絡(luò)、存儲、服務(wù)器、集群、可觀測等,阿里云全新升級的AI Infra到底有哪些重磅更新?
阿里云
云服務(wù)
2024-11-022024-11-02
AI時代云安全新范式,阿里云安全能力全線升級!
AI時代云安全新范式,阿里云安全能力全線升級!
AI時代,云安全面臨著新的挑戰(zhàn),不僅要持續(xù)面對以往的傳統(tǒng)問題,更需要全新理念落地于產(chǎn)品設(shè)計、技術(shù)演進、架構(gòu)設(shè)計,才能實現(xiàn)效果、性能、和成本的最優(yōu)解。
AI
阿里云
云服務(wù)
2024-09-272024-09-27
連續(xù)四年!阿里云領(lǐng)跑中國公有云大數(shù)據(jù)平臺
連續(xù)四年!阿里云領(lǐng)跑中國公有云大數(shù)據(jù)平臺
近日,國際數(shù)據(jù)公司(IDC)發(fā)布《中國大數(shù)據(jù)平臺市場份額,2023:數(shù)智融合時代的真正到來》報告——2023年中國大數(shù)據(jù)平臺公有云服務(wù)市場規(guī)模達72.2億元人民幣,其中阿里巴巴市場份額保持領(lǐng)先,占比達40.2%,連續(xù)四年排名第一。
阿里云
云服務(wù)
2024-09-182024-09-18
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家