深度解讀阿里云數(shù)據(jù)中心自研網(wǎng)絡(luò)引擎

來源:阿里云基礎(chǔ)設(shè)施
作者:阿里云基礎(chǔ)設(shè)施
時間:2023-01-23
2628
隨著處理器和存儲能力不斷升級,AI等新應(yīng)用的興起,網(wǎng)絡(luò)的性能變得愈加重要。阿里巴巴的自研網(wǎng)絡(luò)硬件已覆蓋并規(guī)模部署到阿里云的整個網(wǎng)絡(luò),成為了整個網(wǎng)絡(luò)的基礎(chǔ)。

從2018年投入第一代軟硬件全自研交換機研發(fā)至今,阿里巴巴的自研網(wǎng)絡(luò)硬件已覆蓋并規(guī)模部署到阿里云的整個網(wǎng)絡(luò),成為了整個網(wǎng)絡(luò)的基礎(chǔ)。



01

 一切為了規(guī)模

規(guī)模,是互聯(lián)網(wǎng)數(shù)據(jù)中心和傳統(tǒng)數(shù)據(jù)中心的最大區(qū)別,因此,通常會把這類互聯(lián)網(wǎng)、云計算數(shù)據(jù)中心稱作超大規(guī)模數(shù)據(jù)中心——hyperscale data center。

阿里云在全球28個地域的86個可用區(qū)里運營著上百座數(shù)據(jù)中心,每個數(shù)據(jù)中心能夠容納幾萬臺到十幾萬臺服務(wù)器。龐大的數(shù)量催生了“三大規(guī)模”挑戰(zhàn):超大規(guī)模接入、超大規(guī)模運營、超大規(guī)模演進


超大規(guī)模接入

白盒交換機勝任超大規(guī)模接入。

第一,Scale Out理念和CLOS架構(gòu)為硬件白盒化奠定了架構(gòu)基礎(chǔ)。

Scale Out理念利用橫向擴展來增加網(wǎng)絡(luò)的接入能力,而不是一味增加單臺設(shè)備的端口數(shù)量。CLOS架構(gòu)則很好的貫徹了Scale Out的理念。這種網(wǎng)絡(luò)架構(gòu)能夠用小規(guī)模、低成本的設(shè)備,構(gòu)建大規(guī)模的網(wǎng)絡(luò),成為超大規(guī)模數(shù)據(jù)中心的事實架構(gòu)標(biāo)準(zhǔn)。


圖 | Scale up vs Scale Out

這樣的背景下,盒式交換機終于有了用武之地,盒式交換機的設(shè)計復(fù)雜度相比傳統(tǒng)的框式交換機要低,這就為硬件白盒化奠定了架構(gòu)基礎(chǔ)。

第二,SDN讓封閉系統(tǒng)變成開放系統(tǒng)。

傳統(tǒng)的數(shù)據(jù)中心交換機多為復(fù)雜的框式交換機,并且數(shù)據(jù)面、控制、管理完全由設(shè)備廠家控制,是一個封閉的系統(tǒng)。SDN的核心思想之一是開放和解耦,通過解耦把單個廠商封閉系統(tǒng)變成一個開放的系統(tǒng)。最具代表性的成果是商業(yè)化交換機芯片逐漸占據(jù)數(shù)據(jù)中心網(wǎng)絡(luò)市場的主導(dǎo)地位,開源組織和開源軟件也如雨后春筍般出現(xiàn)。白盒交換機有了架構(gòu)的基礎(chǔ),也有了芯片基礎(chǔ)。

最后,不得不提的是SONiC這個交換機開放操作系統(tǒng)。由微軟首先倡導(dǎo),阿里巴巴主力推動的開源SONiC已經(jīng)成為交換機開源操作系統(tǒng)的事實標(biāo)準(zhǔn)。

至此,白盒交換機儼然成為了大規(guī)模數(shù)據(jù)中心的天選之子。


超大規(guī)模運營

白盒交換機解決超大規(guī)模網(wǎng)絡(luò)的運營問題。

傳統(tǒng)網(wǎng)絡(luò)的運營,類似于人工駕駛,每個運營人員就像駕駛員,需要操控好自己的車子,以應(yīng)對突發(fā)路況,而當(dāng)我們的交通網(wǎng)越來越大時,單純依靠駕駛員自身的能力將無法達到最佳效率。

超大規(guī)模網(wǎng)絡(luò)的運營,類似于大交通網(wǎng)下的自動駕駛,通過為全網(wǎng)交換機賦予豐富的監(jiān)控能力,再通過對大量數(shù)據(jù)的智能分析和集中處理能力,能夠大幅提升超大規(guī)模網(wǎng)絡(luò)的運營效率。


超大規(guī)模演進

白盒化幫助實現(xiàn)超大規(guī)模架構(gòu)的快速部署和迭代,從更高的維度實現(xiàn)性能和成本的最優(yōu)解。

在依賴商業(yè)交換機的時代,整個網(wǎng)絡(luò)的演進受限于廠家的方案,用戶需求真正體現(xiàn)到設(shè)備廠家會存在遲滯;除此之外,在成本上,傳統(tǒng)網(wǎng)絡(luò)成本的降低,依賴于三方競價等手段來降低單設(shè)備的成本,而白盒賦予其在更高維度上的成本優(yōu)化方式。

快速變化的業(yè)務(wù)驅(qū)動下,用戶可第一時間享受到新芯片、新架構(gòu)的紅利,且能夠形成長期穩(wěn)定的架構(gòu)演進方案,從而實現(xiàn)整體網(wǎng)絡(luò)成本的降低。

圖 | 網(wǎng)絡(luò)成本



02

自研之路


起步與選擇

阿里巴巴基于全自研交換機的網(wǎng)絡(luò)架構(gòu)始于2018年。彼時100G模塊已成為成熟的方案,商業(yè)12.8T交換芯片也剛剛出世,25G網(wǎng)卡的服務(wù)器也開始規(guī)模上線。

在這樣的背景下,有個最為恰當(dāng)?shù)倪x擇:利用12.8T單芯片打造128個100G端口的交換機,從而實現(xiàn)網(wǎng)絡(luò)性能、成本雙贏。

這里有必要做一些背景介紹。

在三層CLOS架構(gòu)下,整個網(wǎng)絡(luò)能夠接入網(wǎng)卡和服務(wù)器的數(shù)量,也就是我們所說的集群規(guī)模,取決于單臺交換機的端口數(shù)量。

圖 | 集群規(guī)模-端口數(shù)量


而交換機的單端口帶寬則反映了業(yè)務(wù)對于帶寬的需求。

以12.8T交換芯片為例,基于單芯片的交換機可以設(shè)計成128x100G端口,或者32個400G端口。對于后者來說,帶寬提升了但同時犧牲了接入的規(guī)模。

而交換機的端口形態(tài)也決定了使用哪種光模塊。

因此,業(yè)務(wù)的需求,最終反映到了網(wǎng)絡(luò)的架構(gòu)和交換機端口形態(tài)的選擇上。

圖 | 網(wǎng)絡(luò)架構(gòu)的平衡


北美的四大互聯(lián)網(wǎng)中也有出于對高帶寬的需求,同時為了兼顧集群規(guī)模,而采用多個盒式交換機互連來形成一個邏輯上的大帶寬多端口的Leaf/Spine交換機,并且一直延續(xù)這樣的架構(gòu)。其帶來的影響是相比單芯片的盒式交換機組網(wǎng)方案,互連復(fù)雜度增加,同時互連跳數(shù)增加導(dǎo)致時延增加。

基于當(dāng)時自身的需求和產(chǎn)業(yè)鏈狀況,阿里巴巴選擇了一條最為適合自己、最為簡潔的單芯片交換機方案。


200G還是400G

2019年底,在第一代架構(gòu)規(guī)模上線之時,阿里云開始規(guī)劃下一代的網(wǎng)絡(luò)方案。此時25.6T交換芯片呼之欲出。走400G網(wǎng)絡(luò)還是走200G網(wǎng)絡(luò)成了爭論的焦點。

當(dāng)時,一些北美互聯(lián)網(wǎng)公司規(guī)劃了800G/400G的互連方案,從技術(shù)上看,在光互連技術(shù)上確實領(lǐng)先業(yè)界。但是400G在可預(yù)見的幾年內(nèi)還不能達到較好的性價比;另一方面,基于25.6T芯片做400G端口的交換機,端口數(shù)量相比200G減少一半,整體的集群規(guī)模會降至200G網(wǎng)絡(luò)的1/4,這是更為致命的一個問題。

網(wǎng)絡(luò)架構(gòu)基于單芯片交換機這一方案不會輕易動搖。

權(quán)衡利弊之后,阿里云選擇了200G路線:既能保證架構(gòu)和帶寬平滑演進,又能保持集群規(guī)模,選擇這一路線帶來的挑戰(zhàn)是需要驅(qū)動產(chǎn)業(yè)鏈去為200G的模塊做好準(zhǔn)備。從這一代開始,阿里云開始了自己的集群架構(gòu)和交換機的演進之路。


未來已來

商業(yè)芯片還在按照既定的2年一代的節(jié)奏進行升級,51.2T芯片已躍出水面,真正的400G時代即將到來。

對業(yè)務(wù)規(guī)劃的深入理解、對產(chǎn)業(yè)的清晰認知和影響、對架構(gòu)演進的合理規(guī)劃,讓阿里云比四年前更有自信。

圖 | 磐久數(shù)據(jù)中心自研交換機


全鏈路自動化

過去很長的時間里,網(wǎng)絡(luò)設(shè)備的管理和運維都是以人手動為主,網(wǎng)絡(luò)配置采用命令行,網(wǎng)絡(luò)故障發(fā)現(xiàn)需要靠人肉通過Ping、Traceroute等基本工具來進行。阿里的每個大型數(shù)據(jù)中心都有幾千臺的交換機,依靠人來手工運維是不現(xiàn)實的。

阿里云的數(shù)據(jù)中心網(wǎng)絡(luò)利用軟硬件自主可控,實現(xiàn)了運營的自動化和智能化。自動化運營包括很多方面,從最開始的自動化架構(gòu)驗證,到自動化的規(guī)模部署,再到自動化的新功能發(fā)布、軟件版本升級,以及故障的自動化發(fā)現(xiàn)、隔離和恢復(fù)等。

與廠商的封閉設(shè)備不同,阿里通過軟硬件自研實現(xiàn)自主可控,從頭打造了適合大規(guī)模運營的部署能力、監(jiān)控能力、排障能力、升級能力等等。大規(guī)模自動化運營水到渠成,支撐規(guī)模運營的思想貫穿著交換機的整個生命周期。


圖 | 全鏈路自動化


第二大腦

從第一代自研交換機開始,阿里就將BMC引入到了交換機中,作為交換機的第二大腦。

傳統(tǒng)的交換機內(nèi),CPU負責(zé)了所有的控制和管理任務(wù),一旦CPU出現(xiàn)問題,設(shè)備就會失聯(lián),也很難對故障進行追溯,故障的恢復(fù)也需要依賴人工干預(yù)。BMC的引入,將設(shè)備的管理任務(wù)搬到了BMC,CPU則專注于交換芯片的控制:在CPU掛死時,BMC能主動獲取CPU的故障信息,同時結(jié)合設(shè)備上的實時傳感器監(jiān)控數(shù)據(jù)對故障過程和原因進行排查、分析;同時,BMC還能對CPU和設(shè)備進行恢復(fù),避免了人工干預(yù)。

圖 | AliBMC


第二生命線

除了主架構(gòu)交換機,阿里還將帶外網(wǎng)絡(luò)進行了全面的自研化改造。

帶外交換機和串口服務(wù)器是網(wǎng)絡(luò)的第二道生命線,當(dāng)帶內(nèi)出現(xiàn)問題時,往往要依賴于帶外通道對故障進行排查和恢復(fù)。長期以來帶外并未受到足夠重視,供應(yīng)、成本、穩(wěn)定性這些都是老大難的問題。

同時,主架構(gòu)交換機自研的理念也帶到了帶外,除了解決供應(yīng)、成本、穩(wěn)定性這三大問題,也將自動化能力和豐富的運維特性帶給了帶外,極大提高了整個網(wǎng)絡(luò)運營的效率。

在規(guī)模部署和運營上,另一個不得不提的是“自研交換機+DAC的整機柜一體化方案”,該方案極大提升了交換機和服務(wù)器互連的穩(wěn)定性,提升了建設(shè)和運營效率,關(guān)于這個主題,我們接下來會有單獨的一篇文章去詳細介紹。


03

生態(tài)的力量

傳統(tǒng)設(shè)備廠商設(shè)計一款交換機,需要有非常大的投入和很長的周期。對云計算廠商來說,效率是非常重要的。

解法是什么?那就是——生態(tài)的力量。


S3IP-網(wǎng)絡(luò)標(biāo)準(zhǔn)化新引擎

打造生態(tài),推動生態(tài),合作共贏,讓白盒交換機的開發(fā)和集成更為簡單。這也是在2020年推動發(fā)起S3IP的初衷和主旨。今天的S3IP,聯(lián)合了國內(nèi)幾乎所有的頭部互聯(lián)網(wǎng)廠家,也吸引了業(yè)內(nèi)主要的白盒交換機ODM廠家、商業(yè)芯片廠家。

如何打造網(wǎng)絡(luò)標(biāo)準(zhǔn)化新引擎的呢?

  因為白盒交換機底層驅(qū)動向上接口的差異,造成了不同交換機需要投入重復(fù)的集成工作,為此提出了驅(qū)動接口標(biāo)準(zhǔn)化sysfs。

●  因為交換機平臺測試上存在的差異化,提出了平臺測試標(biāo)準(zhǔn)化PIT。

●  因為廠家SONiC系統(tǒng)和用戶環(huán)境及需求存在的差異,阿里云提出了D4OS這一標(biāo)準(zhǔn)化的廠家出貨的OS,不僅解決了統(tǒng)一的問題,同時也為D4OS植入了支持交換機大規(guī)模部署的程序,使得廠家OS能夠無縫對接用戶。

●  在硬件層面,為了支持軟件和系統(tǒng)更好地集成,從功能層面提出了硬件系統(tǒng)的基礎(chǔ)能力需求。

●  對于核心的CPU模組進行了標(biāo)準(zhǔn)化,統(tǒng)一了用戶的需求,讓用戶和ODM的研發(fā)效率大大提升。

可以說,S3IP從最樸素的想法出發(fā),從點到面,已逐步構(gòu)建了一個國內(nèi)白盒交換機領(lǐng)域的標(biāo)準(zhǔn)體系。

圖 | S3IP


今天,S3IP生態(tài)已吸引了7家頭部互聯(lián)網(wǎng)公司、1家運營商伙伴、10家交換機領(lǐng)域的系統(tǒng)廠家,7家芯片公司的加入,目前,已經(jīng)貢獻超過2萬+行代碼供生態(tài)伙伴使用,超過30款系統(tǒng)按照S3IP標(biāo)準(zhǔn)進行適配。S3IP當(dāng)前的標(biāo)準(zhǔn)化覆蓋了白盒交換機底層硬件、底層軟件、平臺測試,正在向芯片標(biāo)準(zhǔn)化進發(fā)。

S3IP在扎根國內(nèi)的同時,也不忘輸出影響力到國際上。去年,S3IP將PIT/Sysfs推到了SONiC社區(qū),PIT/Sysfs HLD PR已獲通過;在未來網(wǎng)卡和交換機融合的新領(lǐng)域,S3IP也會和DASH社區(qū)保持緊密溝通。

圖 | S3IP-SONiC


QSFP112

除了S3IP這一白盒標(biāo)準(zhǔn)化組織,阿里在交換機端口的標(biāo)準(zhǔn)化上也進行了持續(xù)的推動和貢獻,主導(dǎo)發(fā)起了QSFP112 MSA組織。

阿里的網(wǎng)絡(luò)架構(gòu),決定了在交換機設(shè)備上會持續(xù)走單芯片128端口的路線。結(jié)合交換芯片從25.6G到51.2G,再到102.4T的演進路線,阿里的交換機端口會長期使用4個lane的方案。簡單來說,就是一個端口由四個高速串行電信號組成。

當(dāng)串行電信號的速率為25G,單個端口速率為100G,這就是業(yè)界現(xiàn)有的QSFP28標(biāo)準(zhǔn)。

串行電信號的速率為50G,單個端口速率為200G,業(yè)界標(biāo)準(zhǔn)就是QSFP56標(biāo)準(zhǔn)。

當(dāng)確定了長期的架構(gòu)方案后,我們發(fā)現(xiàn):當(dāng)串行電信號的速率達到112G的時候,也就是單端口400G的時候,業(yè)界還沒有這樣的標(biāo)準(zhǔn)(很大一部分原因是由于北美四大互聯(lián)網(wǎng)的網(wǎng)絡(luò)和交換機路線和我們存在差異,他們走的是單端口8個或16個高速串行信號的方案)。這便驅(qū)動了阿里云在2021年率先發(fā)起QSFP112標(biāo)準(zhǔn)。使得整個產(chǎn)業(yè)鏈為400G時代做好了準(zhǔn)備,也為未來QSFP224標(biāo)準(zhǔn)打下了堅實的基礎(chǔ)。

圖 | QSFP112


04

總結(jié)展望

阿里的白盒交換機自研趕上了云計算快速發(fā)展的年代。經(jīng)過多年的實戰(zhàn)檢驗,阿里在白盒交換機領(lǐng)域積累了豐富的經(jīng)驗。

歸根到底,軟硬件自研服務(wù)的是阿里整個網(wǎng)絡(luò)架構(gòu)的平滑和快速迭代,降低單位帶寬的成本;同時,軟硬件自研服務(wù)也為阿里的大規(guī)模自動化運營提供了基礎(chǔ)。

隨著處理器和存儲能力不斷升級,AI等新應(yīng)用的興起,網(wǎng)絡(luò)的性能變得愈加重要。在這樣的背景下,阿里提出了“可預(yù)期網(wǎng)絡(luò)”的理念?!翱深A(yù)期網(wǎng)絡(luò)”的核心,是通過端和網(wǎng)的協(xié)同與融合,保證網(wǎng)絡(luò)的帶寬和延遲,這一思想的前提,是需要端側(cè)和網(wǎng)側(cè)的透明,而交換機的自主可控是這個思想的基礎(chǔ)之一。

和傳統(tǒng)的計算不同,AI和智算有著特殊的流量模型,all-reduce的算法使得網(wǎng)絡(luò)更容易出現(xiàn)Incast,而任務(wù)本身對于Incast造成的擁塞也更為敏感。

新形勢下,我們的AI網(wǎng)絡(luò)如何搭建和優(yōu)化?我們的自研交換機怎樣配合新的網(wǎng)絡(luò)架構(gòu)去支持新的業(yè)務(wù)場景?這些都是阿里云“可預(yù)期網(wǎng)絡(luò)”目前需要思考的問題?!翱深A(yù)期網(wǎng)絡(luò)”的目標(biāo)和新興的智算業(yè)務(wù),驅(qū)動著自研交換機的未來發(fā)展。

END

原文鏈接:點擊前往 >
文章來源:阿里云基礎(chǔ)設(shè)施
版權(quán)說明:本文內(nèi)容來自于阿里云基礎(chǔ)設(shè)施,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家