深度解讀阿里云數(shù)據(jù)中心自研網(wǎng)絡(luò)引擎

來(lái)源：阿里云基礎(chǔ)設(shè)施

作者：阿里云基礎(chǔ)設(shè)施

時(shí)間：2023-01-23

隨著處理器和存儲(chǔ)能力不斷升級(jí)，AI等新應(yīng)用的興起，網(wǎng)絡(luò)的性能變得愈加重要。阿里巴巴的自研網(wǎng)絡(luò)硬件已覆蓋并規(guī)模部署到阿里云的整個(gè)網(wǎng)絡(luò)，成為了整個(gè)網(wǎng)絡(luò)的基礎(chǔ)。

從2018年投入第一代軟硬件全自研交換機(jī)研發(fā)至今，阿里巴巴的自研網(wǎng)絡(luò)硬件已覆蓋并規(guī)模部署到阿里云的整個(gè)網(wǎng)絡(luò)，成為了整個(gè)網(wǎng)絡(luò)的基礎(chǔ)。

一切為了規(guī)模

規(guī)模，是互聯(lián)網(wǎng)數(shù)據(jù)中心和傳統(tǒng)數(shù)據(jù)中心的最大區(qū)別，因此，通常會(huì)把這類互聯(lián)網(wǎng)、云計(jì)算數(shù)據(jù)中心稱作超大規(guī)模數(shù)據(jù)中心——hyperscale data center。

阿里云在全球28個(gè)地域的86個(gè)可用區(qū)里運(yùn)營(yíng)著上百座數(shù)據(jù)中心，每個(gè)數(shù)據(jù)中心能夠容納幾萬(wàn)臺(tái)到十幾萬(wàn)臺(tái)服務(wù)器。龐大的數(shù)量催生了“三大規(guī)?！碧魬?zhàn)：超大規(guī)模接入、超大規(guī)模運(yùn)營(yíng)、超大規(guī)模演進(jìn)。

超大規(guī)模接入

白盒交換機(jī)勝任超大規(guī)模接入。

第一，Scale Out理念和CLOS架構(gòu)為硬件白盒化奠定了架構(gòu)基礎(chǔ)。

Scale Out理念利用橫向擴(kuò)展來(lái)增加網(wǎng)絡(luò)的接入能力，而不是一味增加單臺(tái)設(shè)備的端口數(shù)量。CLOS架構(gòu)則很好的貫徹了Scale Out的理念。這種網(wǎng)絡(luò)架構(gòu)能夠用小規(guī)模、低成本的設(shè)備，構(gòu)建大規(guī)模的網(wǎng)絡(luò)，成為超大規(guī)模數(shù)據(jù)中心的事實(shí)架構(gòu)標(biāo)準(zhǔn)。

圖 | Scale up vs Scale Out

這樣的背景下，盒式交換機(jī)終于有了用武之地，盒式交換機(jī)的設(shè)計(jì)復(fù)雜度相比傳統(tǒng)的框式交換機(jī)要低，這就為硬件白盒化奠定了架構(gòu)基礎(chǔ)。

第二，SDN讓封閉系統(tǒng)變成開放系統(tǒng)。

傳統(tǒng)的數(shù)據(jù)中心交換機(jī)多為復(fù)雜的框式交換機(jī)，并且數(shù)據(jù)面、控制、管理完全由設(shè)備廠家控制，是一個(gè)封閉的系統(tǒng)。SDN的核心思想之一是開放和解耦，通過(guò)解耦把單個(gè)廠商封閉系統(tǒng)變成一個(gè)開放的系統(tǒng)。最具代表性的成果是商業(yè)化交換機(jī)芯片逐漸占據(jù)數(shù)據(jù)中心網(wǎng)絡(luò)市場(chǎng)的主導(dǎo)地位，開源組織和開源軟件也如雨后春筍般出現(xiàn)。白盒交換機(jī)有了架構(gòu)的基礎(chǔ)，也有了芯片基礎(chǔ)。

最后，不得不提的是SONiC這個(gè)交換機(jī)開放操作系統(tǒng)。由微軟首先倡導(dǎo)，阿里巴巴主力推動(dòng)的開源SONiC已經(jīng)成為交換機(jī)開源操作系統(tǒng)的事實(shí)標(biāo)準(zhǔn)。

至此，白盒交換機(jī)儼然成為了大規(guī)模數(shù)據(jù)中心的天選之子。

超大規(guī)模運(yùn)營(yíng)

白盒交換機(jī)解決超大規(guī)模網(wǎng)絡(luò)的運(yùn)營(yíng)問(wèn)題。

傳統(tǒng)網(wǎng)絡(luò)的運(yùn)營(yíng)，類似于人工駕駛，每個(gè)運(yùn)營(yíng)人員就像駕駛員，需要操控好自己的車子，以應(yīng)對(duì)突發(fā)路況，而當(dāng)我們的交通網(wǎng)越來(lái)越大時(shí)，單純依靠駕駛員自身的能力將無(wú)法達(dá)到最佳效率。

超大規(guī)模網(wǎng)絡(luò)的運(yùn)營(yíng)，類似于大交通網(wǎng)下的自動(dòng)駕駛，通過(guò)為全網(wǎng)交換機(jī)賦予豐富的監(jiān)控能力，再通過(guò)對(duì)大量數(shù)據(jù)的智能分析和集中處理能力，能夠大幅提升超大規(guī)模網(wǎng)絡(luò)的運(yùn)營(yíng)效率。

超大規(guī)模演進(jìn)

白盒化幫助實(shí)現(xiàn)超大規(guī)模架構(gòu)的快速部署和迭代，從更高的維度實(shí)現(xiàn)性能和成本的最優(yōu)解。

在依賴商業(yè)交換機(jī)的時(shí)代，整個(gè)網(wǎng)絡(luò)的演進(jìn)受限于廠家的方案，用戶需求真正體現(xiàn)到設(shè)備廠家會(huì)存在遲滯；除此之外，在成本上，傳統(tǒng)網(wǎng)絡(luò)成本的降低，依賴于三方競(jìng)價(jià)等手段來(lái)降低單設(shè)備的成本，而白盒賦予其在更高維度上的成本優(yōu)化方式。

快速變化的業(yè)務(wù)驅(qū)動(dòng)下，用戶可第一時(shí)間享受到新芯片、新架構(gòu)的紅利，且能夠形成長(zhǎng)期穩(wěn)定的架構(gòu)演進(jìn)方案，從而實(shí)現(xiàn)整體網(wǎng)絡(luò)成本的降低。

圖 | 網(wǎng)絡(luò)成本

自研之路

起步與選擇

阿里巴巴基于全自研交換機(jī)的網(wǎng)絡(luò)架構(gòu)始于2018年。彼時(shí)100G模塊已成為成熟的方案，商業(yè)12.8T交換芯片也剛剛出世，25G網(wǎng)卡的服務(wù)器也開始規(guī)模上線。

在這樣的背景下，有個(gè)最為恰當(dāng)?shù)倪x擇：利用12.8T單芯片打造128個(gè)100G端口的交換機(jī)，從而實(shí)現(xiàn)網(wǎng)絡(luò)性能、成本雙贏。

這里有必要做一些背景介紹。

在三層CLOS架構(gòu)下，整個(gè)網(wǎng)絡(luò)能夠接入網(wǎng)卡和服務(wù)器的數(shù)量，也就是我們所說(shuō)的集群規(guī)模，取決于單臺(tái)交換機(jī)的端口數(shù)量。

圖 | 集群規(guī)模-端口數(shù)量

而交換機(jī)的單端口帶寬則反映了業(yè)務(wù)對(duì)于帶寬的需求。

以12.8T交換芯片為例，基于單芯片的交換機(jī)可以設(shè)計(jì)成128x100G端口，或者32個(gè)400G端口。對(duì)于后者來(lái)說(shuō)，帶寬提升了但同時(shí)犧牲了接入的規(guī)模。

而交換機(jī)的端口形態(tài)也決定了使用哪種光模塊。

因此，業(yè)務(wù)的需求，最終反映到了網(wǎng)絡(luò)的架構(gòu)和交換機(jī)端口形態(tài)的選擇上。

圖 | 網(wǎng)絡(luò)架構(gòu)的平衡

北美的四大互聯(lián)網(wǎng)中也有出于對(duì)高帶寬的需求，同時(shí)為了兼顧集群規(guī)模，而采用多個(gè)盒式交換機(jī)互連來(lái)形成一個(gè)邏輯上的大帶寬多端口的Leaf/Spine交換機(jī)，并且一直延續(xù)這樣的架構(gòu)。其帶來(lái)的影響是相比單芯片的盒式交換機(jī)組網(wǎng)方案，互連復(fù)雜度增加，同時(shí)互連跳數(shù)增加導(dǎo)致時(shí)延增加。

基于當(dāng)時(shí)自身的需求和產(chǎn)業(yè)鏈狀況，阿里巴巴選擇了一條最為適合自己、最為簡(jiǎn)潔的單芯片交換機(jī)方案。

200G還是400G

2019年底，在第一代架構(gòu)規(guī)模上線之時(shí)，阿里云開始規(guī)劃下一代的網(wǎng)絡(luò)方案。此時(shí)25.6T交換芯片呼之欲出。走400G網(wǎng)絡(luò)還是走200G網(wǎng)絡(luò)成了爭(zhēng)論的焦點(diǎn)。

當(dāng)時(shí)，一些北美互聯(lián)網(wǎng)公司規(guī)劃了800G/400G的互連方案，從技術(shù)上看，在光互連技術(shù)上確實(shí)領(lǐng)先業(yè)界。但是400G在可預(yù)見的幾年內(nèi)還不能達(dá)到較好的性價(jià)比；另一方面，基于25.6T芯片做400G端口的交換機(jī)，端口數(shù)量相比200G減少一半，整體的集群規(guī)模會(huì)降至200G網(wǎng)絡(luò)的1/4，這是更為致命的一個(gè)問(wèn)題。

網(wǎng)絡(luò)架構(gòu)基于單芯片交換機(jī)這一方案不會(huì)輕易動(dòng)搖。

權(quán)衡利弊之后，阿里云選擇了200G路線：既能保證架構(gòu)和帶寬平滑演進(jìn)，又能保持集群規(guī)模，選擇這一路線帶來(lái)的挑戰(zhàn)是需要驅(qū)動(dòng)產(chǎn)業(yè)鏈去為200G的模塊做好準(zhǔn)備。從這一代開始，阿里云開始了自己的集群架構(gòu)和交換機(jī)的演進(jìn)之路。

未來(lái)已來(lái)

商業(yè)芯片還在按照既定的2年一代的節(jié)奏進(jìn)行升級(jí)，51.2T芯片已躍出水面，真正的400G時(shí)代即將到來(lái)。

對(duì)業(yè)務(wù)規(guī)劃的深入理解、對(duì)產(chǎn)業(yè)的清晰認(rèn)知和影響、對(duì)架構(gòu)演進(jìn)的合理規(guī)劃，讓阿里云比四年前更有自信。

圖 | 磐久數(shù)據(jù)中心自研交換機(jī)

全鏈路自動(dòng)化

過(guò)去很長(zhǎng)的時(shí)間里，網(wǎng)絡(luò)設(shè)備的管理和運(yùn)維都是以人手動(dòng)為主，網(wǎng)絡(luò)配置采用命令行，網(wǎng)絡(luò)故障發(fā)現(xiàn)需要靠人肉通過(guò)Ping、Traceroute等基本工具來(lái)進(jìn)行。阿里的每個(gè)大型數(shù)據(jù)中心都有幾千臺(tái)的交換機(jī)，依靠人來(lái)手工運(yùn)維是不現(xiàn)實(shí)的。

阿里云的數(shù)據(jù)中心網(wǎng)絡(luò)利用軟硬件自主可控，實(shí)現(xiàn)了運(yùn)營(yíng)的自動(dòng)化和智能化。自動(dòng)化運(yùn)營(yíng)包括很多方面，從最開始的自動(dòng)化架構(gòu)驗(yàn)證，到自動(dòng)化的規(guī)模部署，再到自動(dòng)化的新功能發(fā)布、軟件版本升級(jí)，以及故障的自動(dòng)化發(fā)現(xiàn)、隔離和恢復(fù)等。

與廠商的封閉設(shè)備不同，阿里通過(guò)軟硬件自研實(shí)現(xiàn)自主可控，從頭打造了適合大規(guī)模運(yùn)營(yíng)的部署能力、監(jiān)控能力、排障能力、升級(jí)能力等等。大規(guī)模自動(dòng)化運(yùn)營(yíng)水到渠成，支撐規(guī)模運(yùn)營(yíng)的思想貫穿著交換機(jī)的整個(gè)生命周期。

圖 | 全鏈路自動(dòng)化

第二大腦

從第一代自研交換機(jī)開始，阿里就將BMC引入到了交換機(jī)中，作為交換機(jī)的第二大腦。

傳統(tǒng)的交換機(jī)內(nèi)，CPU負(fù)責(zé)了所有的控制和管理任務(wù)，一旦CPU出現(xiàn)問(wèn)題，設(shè)備就會(huì)失聯(lián)，也很難對(duì)故障進(jìn)行追溯，故障的恢復(fù)也需要依賴人工干預(yù)。BMC的引入，將設(shè)備的管理任務(wù)搬到了BMC，CPU則專注于交換芯片的控制：在CPU掛死時(shí)，BMC能主動(dòng)獲取CPU的故障信息，同時(shí)結(jié)合設(shè)備上的實(shí)時(shí)傳感器監(jiān)控?cái)?shù)據(jù)對(duì)故障過(guò)程和原因進(jìn)行排查、分析；同時(shí)，BMC還能對(duì)CPU和設(shè)備進(jìn)行恢復(fù)，避免了人工干預(yù)。

圖 | AliBMC

第二生命線

除了主架構(gòu)交換機(jī)，阿里還將帶外網(wǎng)絡(luò)進(jìn)行了全面的自研化改造。

帶外交換機(jī)和串口服務(wù)器是網(wǎng)絡(luò)的第二道生命線，當(dāng)帶內(nèi)出現(xiàn)問(wèn)題時(shí)，往往要依賴于帶外通道對(duì)故障進(jìn)行排查和恢復(fù)。長(zhǎng)期以來(lái)帶外并未受到足夠重視，供應(yīng)、成本、穩(wěn)定性這些都是老大難的問(wèn)題。

同時(shí)，主架構(gòu)交換機(jī)自研的理念也帶到了帶外，除了解決供應(yīng)、成本、穩(wěn)定性這三大問(wèn)題，也將自動(dòng)化能力和豐富的運(yùn)維特性帶給了帶外，極大提高了整個(gè)網(wǎng)絡(luò)運(yùn)營(yíng)的效率。

在規(guī)模部署和運(yùn)營(yíng)上，另一個(gè)不得不提的是“自研交換機(jī)+DAC的整機(jī)柜一體化方案”，該方案極大提升了交換機(jī)和服務(wù)器互連的穩(wěn)定性，提升了建設(shè)和運(yùn)營(yíng)效率，關(guān)于這個(gè)主題，我們接下來(lái)會(huì)有單獨(dú)的一篇文章去詳細(xì)介紹。

生態(tài)的力量

傳統(tǒng)設(shè)備廠商設(shè)計(jì)一款交換機(jī)，需要有非常大的投入和很長(zhǎng)的周期。對(duì)云計(jì)算廠商來(lái)說(shuō)，效率是非常重要的。

解法是什么？那就是——生態(tài)的力量。

S3IP-網(wǎng)絡(luò)標(biāo)準(zhǔn)化新引擎

打造生態(tài)，推動(dòng)生態(tài)，合作共贏，讓白盒交換機(jī)的開發(fā)和集成更為簡(jiǎn)單。這也是在2020年推動(dòng)發(fā)起S3IP的初衷和主旨。今天的S3IP，聯(lián)合了國(guó)內(nèi)幾乎所有的頭部互聯(lián)網(wǎng)廠家，也吸引了業(yè)內(nèi)主要的白盒交換機(jī)ODM廠家、商業(yè)芯片廠家。

如何打造網(wǎng)絡(luò)標(biāo)準(zhǔn)化新引擎的呢？

● 因?yàn)榘缀薪粨Q機(jī)底層驅(qū)動(dòng)向上接口的差異，造成了不同交換機(jī)需要投入重復(fù)的集成工作，為此提出了驅(qū)動(dòng)接口標(biāo)準(zhǔn)化sysfs。

● 因?yàn)榻粨Q機(jī)平臺(tái)測(cè)試上存在的差異化，提出了平臺(tái)測(cè)試標(biāo)準(zhǔn)化PIT。

● 因?yàn)閺S家SONiC系統(tǒng)和用戶環(huán)境及需求存在的差異，阿里云提出了D4OS這一標(biāo)準(zhǔn)化的廠家出貨的OS，不僅解決了統(tǒng)一的問(wèn)題，同時(shí)也為D4OS植入了支持交換機(jī)大規(guī)模部署的程序，使得廠家OS能夠無(wú)縫對(duì)接用戶。

● 在硬件層面，為了支持軟件和系統(tǒng)更好地集成，從功能層面提出了硬件系統(tǒng)的基礎(chǔ)能力需求。

● 對(duì)于核心的CPU模組進(jìn)行了標(biāo)準(zhǔn)化，統(tǒng)一了用戶的需求，讓用戶和ODM的研發(fā)效率大大提升。

可以說(shuō)，S3IP從最樸素的想法出發(fā)，從點(diǎn)到面，已逐步構(gòu)建了一個(gè)國(guó)內(nèi)白盒交換機(jī)領(lǐng)域的標(biāo)準(zhǔn)體系。

圖 | S3IP

今天，S3IP生態(tài)已吸引了7家頭部互聯(lián)網(wǎng)公司、1家運(yùn)營(yíng)商伙伴、10家交換機(jī)領(lǐng)域的系統(tǒng)廠家，7家芯片公司的加入，目前，已經(jīng)貢獻(xiàn)超過(guò)2萬(wàn)+行代碼供生態(tài)伙伴使用，超過(guò)30款系統(tǒng)按照S3IP標(biāo)準(zhǔn)進(jìn)行適配。S3IP當(dāng)前的標(biāo)準(zhǔn)化覆蓋了白盒交換機(jī)底層硬件、底層軟件、平臺(tái)測(cè)試，正在向芯片標(biāo)準(zhǔn)化進(jìn)發(fā)。

S3IP在扎根國(guó)內(nèi)的同時(shí)，也不忘輸出影響力到國(guó)際上。去年，S3IP將PIT/Sysfs推到了SONiC社區(qū)，PIT/Sysfs HLD PR已獲通過(guò)；在未來(lái)網(wǎng)卡和交換機(jī)融合的新領(lǐng)域，S3IP也會(huì)和DASH社區(qū)保持緊密溝通。

圖 | S3IP-SONiC

QSFP112

除了S3IP這一白盒標(biāo)準(zhǔn)化組織，阿里在交換機(jī)端口的標(biāo)準(zhǔn)化上也進(jìn)行了持續(xù)的推動(dòng)和貢獻(xiàn)，主導(dǎo)發(fā)起了QSFP112 MSA組織。

阿里的網(wǎng)絡(luò)架構(gòu)，決定了在交換機(jī)設(shè)備上會(huì)持續(xù)走單芯片128端口的路線。結(jié)合交換芯片從25.6G到51.2G，再到102.4T的演進(jìn)路線，阿里的交換機(jī)端口會(huì)長(zhǎng)期使用4個(gè)lane的方案。簡(jiǎn)單來(lái)說(shuō)，就是一個(gè)端口由四個(gè)高速串行電信號(hào)組成。

當(dāng)串行電信號(hào)的速率為25G，單個(gè)端口速率為100G，這就是業(yè)界現(xiàn)有的QSFP28標(biāo)準(zhǔn)。

串行電信號(hào)的速率為50G，單個(gè)端口速率為200G，業(yè)界標(biāo)準(zhǔn)就是QSFP56標(biāo)準(zhǔn)。

當(dāng)確定了長(zhǎng)期的架構(gòu)方案后，我們發(fā)現(xiàn)：當(dāng)串行電信號(hào)的速率達(dá)到112G的時(shí)候，也就是單端口400G的時(shí)候，業(yè)界還沒(méi)有這樣的標(biāo)準(zhǔn)（很大一部分原因是由于北美四大互聯(lián)網(wǎng)的網(wǎng)絡(luò)和交換機(jī)路線和我們存在差異，他們走的是單端口8個(gè)或16個(gè)高速串行信號(hào)的方案）。這便驅(qū)動(dòng)了阿里云在2021年率先發(fā)起QSFP112標(biāo)準(zhǔn)。使得整個(gè)產(chǎn)業(yè)鏈為400G時(shí)代做好了準(zhǔn)備，也為未來(lái)QSFP224標(biāo)準(zhǔn)打下了堅(jiān)實(shí)的基礎(chǔ)。

圖 | QSFP112

總結(jié)展望

阿里的白盒交換機(jī)自研趕上了云計(jì)算快速發(fā)展的年代。經(jīng)過(guò)多年的實(shí)戰(zhàn)檢驗(yàn)，阿里在白盒交換機(jī)領(lǐng)域積累了豐富的經(jīng)驗(yàn)。

歸根到底，軟硬件自研服務(wù)的是阿里整個(gè)網(wǎng)絡(luò)架構(gòu)的平滑和快速迭代，降低單位帶寬的成本；同時(shí)，軟硬件自研服務(wù)也為阿里的大規(guī)模自動(dòng)化運(yùn)營(yíng)提供了基礎(chǔ)。

隨著處理器和存儲(chǔ)能力不斷升級(jí)，AI等新應(yīng)用的興起，網(wǎng)絡(luò)的性能變得愈加重要。在這樣的背景下，阿里提出了“可預(yù)期網(wǎng)絡(luò)”的理念?！翱深A(yù)期網(wǎng)絡(luò)”的核心，是通過(guò)端和網(wǎng)的協(xié)同與融合，保證網(wǎng)絡(luò)的帶寬和延遲，這一思想的前提，是需要端側(cè)和網(wǎng)側(cè)的透明，而交換機(jī)的自主可控是這個(gè)思想的基礎(chǔ)之一。

和傳統(tǒng)的計(jì)算不同，AI和智算有著特殊的流量模型，all-reduce的算法使得網(wǎng)絡(luò)更容易出現(xiàn)Incast，而任務(wù)本身對(duì)于Incast造成的擁塞也更為敏感。

新形勢(shì)下，我們的AI網(wǎng)絡(luò)如何搭建和優(yōu)化？我們的自研交換機(jī)怎樣配合新的網(wǎng)絡(luò)架構(gòu)去支持新的業(yè)務(wù)場(chǎng)景？這些都是阿里云“可預(yù)期網(wǎng)絡(luò)”目前需要思考的問(wèn)題?！翱深A(yù)期網(wǎng)絡(luò)”的目標(biāo)和新興的智算業(yè)務(wù)，驅(qū)動(dòng)著自研交換機(jī)的未來(lái)發(fā)展。

END

阿里云互聯(lián)網(wǎng) 數(shù)據(jù)安全

上一篇：開年第一天，首款“王炸”級(jí)SLG突然出現(xiàn)了！

原文鏈接：點(diǎn)擊前往 >

文章來(lái)源：阿里云基礎(chǔ)設(shè)施

版權(quán)說(shuō)明：本文內(nèi)容來(lái)自于阿里云基礎(chǔ)設(shè)施，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章