深度解讀阿里云數據中心自研網絡引擎

來源:阿里云基礎設施
作者:阿里云基礎設施
時間:2023-01-23
2359
隨著處理器和存儲能力不斷升級,AI等新應用的興起,網絡的性能變得愈加重要。阿里巴巴的自研網絡硬件已覆蓋并規(guī)模部署到阿里云的整個網絡,成為了整個網絡的基礎。

從2018年投入第一代軟硬件全自研交換機研發(fā)至今,阿里巴巴的自研網絡硬件已覆蓋并規(guī)模部署到阿里云的整個網絡,成為了整個網絡的基礎。



01

 一切為了規(guī)模

規(guī)模,是互聯網數據中心和傳統(tǒng)數據中心的最大區(qū)別,因此,通常會把這類互聯網、云計算數據中心稱作超大規(guī)模數據中心——hyperscale data center。

阿里云在全球28個地域的86個可用區(qū)里運營著上百座數據中心,每個數據中心能夠容納幾萬臺到十幾萬臺服務器。龐大的數量催生了“三大規(guī)?!碧魬?zhàn):超大規(guī)模接入超大規(guī)模運營、超大規(guī)模演進。


超大規(guī)模接入

白盒交換機勝任超大規(guī)模接入。

第一,Scale Out理念和CLOS架構為硬件白盒化奠定了架構基礎。

Scale Out理念利用橫向擴展來增加網絡的接入能力,而不是一味增加單臺設備的端口數量。CLOS架構則很好的貫徹了Scale Out的理念。這種網絡架構能夠用小規(guī)模、低成本的設備,構建大規(guī)模的網絡,成為超大規(guī)模數據中心的事實架構標準。


圖 | Scale up vs Scale Out

這樣的背景下,盒式交換機終于有了用武之地,盒式交換機的設計復雜度相比傳統(tǒng)的框式交換機要低,這就為硬件白盒化奠定了架構基礎。

第二,SDN讓封閉系統(tǒng)變成開放系統(tǒng)。

傳統(tǒng)的數據中心交換機多為復雜的框式交換機,并且數據面、控制、管理完全由設備廠家控制,是一個封閉的系統(tǒng)。SDN的核心思想之一是開放和解耦,通過解耦把單個廠商封閉系統(tǒng)變成一個開放的系統(tǒng)。最具代表性的成果是商業(yè)化交換機芯片逐漸占據數據中心網絡市場的主導地位,開源組織和開源軟件也如雨后春筍般出現。白盒交換機有了架構的基礎,也有了芯片基礎。

最后,不得不提的是SONiC這個交換機開放操作系統(tǒng)。由微軟首先倡導,阿里巴巴主力推動的開源SONiC已經成為交換機開源操作系統(tǒng)的事實標準。

至此,白盒交換機儼然成為了大規(guī)模數據中心的天選之子。


超大規(guī)模運營

白盒交換機解決超大規(guī)模網絡的運營問題。

傳統(tǒng)網絡的運營,類似于人工駕駛,每個運營人員就像駕駛員,需要操控好自己的車子,以應對突發(fā)路況,而當我們的交通網越來越大時,單純依靠駕駛員自身的能力將無法達到最佳效率。

超大規(guī)模網絡的運營,類似于大交通網下的自動駕駛,通過為全網交換機賦予豐富的監(jiān)控能力,再通過對大量數據的智能分析和集中處理能力,能夠大幅提升超大規(guī)模網絡的運營效率。


超大規(guī)模演進

白盒化幫助實現超大規(guī)模架構的快速部署和迭代,從更高的維度實現性能和成本的最優(yōu)解。

在依賴商業(yè)交換機的時代,整個網絡的演進受限于廠家的方案,用戶需求真正體現到設備廠家會存在遲滯;除此之外,在成本上,傳統(tǒng)網絡成本的降低,依賴于三方競價等手段來降低單設備的成本,而白盒賦予其在更高維度上的成本優(yōu)化方式。

快速變化的業(yè)務驅動下,用戶可第一時間享受到新芯片、新架構的紅利,且能夠形成長期穩(wěn)定的架構演進方案,從而實現整體網絡成本的降低。

圖 | 網絡成本



02

自研之路


起步與選擇

阿里巴巴基于全自研交換機的網絡架構始于2018年。彼時100G模塊已成為成熟的方案,商業(yè)12.8T交換芯片也剛剛出世,25G網卡的服務器也開始規(guī)模上線。

在這樣的背景下,有個最為恰當的選擇:利用12.8T單芯片打造128個100G端口的交換機,從而實現網絡性能、成本雙贏。

這里有必要做一些背景介紹。

在三層CLOS架構下,整個網絡能夠接入網卡和服務器的數量,也就是我們所說的集群規(guī)模,取決于單臺交換機的端口數量。

圖 | 集群規(guī)模-端口數量


而交換機的單端口帶寬則反映了業(yè)務對于帶寬的需求。

以12.8T交換芯片為例,基于單芯片的交換機可以設計成128x100G端口,或者32個400G端口。對于后者來說,帶寬提升了但同時犧牲了接入的規(guī)模。

而交換機的端口形態(tài)也決定了使用哪種光模塊。

因此,業(yè)務的需求,最終反映到了網絡的架構和交換機端口形態(tài)的選擇上。

圖 | 網絡架構的平衡


北美的四大互聯網中也有出于對高帶寬的需求,同時為了兼顧集群規(guī)模,而采用多個盒式交換機互連來形成一個邏輯上的大帶寬多端口的Leaf/Spine交換機,并且一直延續(xù)這樣的架構。其帶來的影響是相比單芯片的盒式交換機組網方案,互連復雜度增加,同時互連跳數增加導致時延增加。

基于當時自身的需求和產業(yè)鏈狀況,阿里巴巴選擇了一條最為適合自己、最為簡潔的單芯片交換機方案。


200G還是400G

2019年底,在第一代架構規(guī)模上線之時,阿里云開始規(guī)劃下一代的網絡方案。此時25.6T交換芯片呼之欲出。走400G網絡還是走200G網絡成了爭論的焦點。

當時,一些北美互聯網公司規(guī)劃了800G/400G的互連方案,從技術上看,在光互連技術上確實領先業(yè)界。但是400G在可預見的幾年內還不能達到較好的性價比;另一方面,基于25.6T芯片做400G端口的交換機,端口數量相比200G減少一半,整體的集群規(guī)模會降至200G網絡的1/4,這是更為致命的一個問題。

網絡架構基于單芯片交換機這一方案不會輕易動搖。

權衡利弊之后,阿里云選擇了200G路線:既能保證架構和帶寬平滑演進,又能保持集群規(guī)模,選擇這一路線帶來的挑戰(zhàn)是需要驅動產業(yè)鏈去為200G的模塊做好準備。從這一代開始,阿里云開始了自己的集群架構和交換機的演進之路。


未來已來

商業(yè)芯片還在按照既定的2年一代的節(jié)奏進行升級,51.2T芯片已躍出水面,真正的400G時代即將到來。

對業(yè)務規(guī)劃的深入理解、對產業(yè)的清晰認知和影響、對架構演進的合理規(guī)劃,讓阿里云比四年前更有自信。

圖 | 磐久數據中心自研交換機


全鏈路自動化

過去很長的時間里,網絡設備的管理和運維都是以人手動為主,網絡配置采用命令行,網絡故障發(fā)現需要靠人肉通過Ping、Traceroute等基本工具來進行。阿里的每個大型數據中心都有幾千臺的交換機,依靠人來手工運維是不現實的。

阿里云的數據中心網絡利用軟硬件自主可控,實現了運營的自動化和智能化。自動化運營包括很多方面,從最開始的自動化架構驗證,到自動化的規(guī)模部署,再到自動化的新功能發(fā)布、軟件版本升級,以及故障的自動化發(fā)現、隔離和恢復等。

與廠商的封閉設備不同,阿里通過軟硬件自研實現自主可控,從頭打造了適合大規(guī)模運營的部署能力、監(jiān)控能力、排障能力、升級能力等等。大規(guī)模自動化運營水到渠成,支撐規(guī)模運營的思想貫穿著交換機的整個生命周期。


圖 | 全鏈路自動化


第二大腦

從第一代自研交換機開始,阿里就將BMC引入到了交換機中,作為交換機的第二大腦。

傳統(tǒng)的交換機內,CPU負責了所有的控制和管理任務,一旦CPU出現問題,設備就會失聯,也很難對故障進行追溯,故障的恢復也需要依賴人工干預。BMC的引入,將設備的管理任務搬到了BMC,CPU則專注于交換芯片的控制:在CPU掛死時,BMC能主動獲取CPU的故障信息,同時結合設備上的實時傳感器監(jiān)控數據對故障過程和原因進行排查、分析;同時,BMC還能對CPU和設備進行恢復,避免了人工干預。

圖 | AliBMC


第二生命線

除了主架構交換機,阿里還將帶外網絡進行了全面的自研化改造。

帶外交換機和串口服務器是網絡的第二道生命線,當帶內出現問題時,往往要依賴于帶外通道對故障進行排查和恢復。長期以來帶外并未受到足夠重視,供應、成本、穩(wěn)定性這些都是老大難的問題。

同時,主架構交換機自研的理念也帶到了帶外,除了解決供應、成本、穩(wěn)定性這三大問題,也將自動化能力和豐富的運維特性帶給了帶外,極大提高了整個網絡運營的效率。

在規(guī)模部署和運營上,另一個不得不提的是“自研交換機+DAC的整機柜一體化方案”,該方案極大提升了交換機和服務器互連的穩(wěn)定性,提升了建設和運營效率,關于這個主題,我們接下來會有單獨的一篇文章去詳細介紹。


03

生態(tài)的力量

傳統(tǒng)設備廠商設計一款交換機,需要有非常大的投入和很長的周期。對云計算廠商來說,效率是非常重要的。

解法是什么?那就是——生態(tài)的力量。


S3IP-網絡標準化新引擎

打造生態(tài),推動生態(tài),合作共贏,讓白盒交換機的開發(fā)和集成更為簡單。這也是在2020年推動發(fā)起S3IP的初衷和主旨。今天的S3IP,聯合了國內幾乎所有的頭部互聯網廠家,也吸引了業(yè)內主要的白盒交換機ODM廠家、商業(yè)芯片廠家。

如何打造網絡標準化新引擎的呢?

  因為白盒交換機底層驅動向上接口的差異,造成了不同交換機需要投入重復的集成工作,為此提出了驅動接口標準化sysfs。

●  因為交換機平臺測試上存在的差異化,提出了平臺測試標準化PIT。

●  因為廠家SONiC系統(tǒng)和用戶環(huán)境及需求存在的差異,阿里云提出了D4OS這一標準化的廠家出貨的OS,不僅解決了統(tǒng)一的問題,同時也為D4OS植入了支持交換機大規(guī)模部署的程序,使得廠家OS能夠無縫對接用戶。

●  在硬件層面,為了支持軟件和系統(tǒng)更好地集成,從功能層面提出了硬件系統(tǒng)的基礎能力需求。

●  對于核心的CPU模組進行了標準化,統(tǒng)一了用戶的需求,讓用戶和ODM的研發(fā)效率大大提升。

可以說,S3IP從最樸素的想法出發(fā),從點到面,已逐步構建了一個國內白盒交換機領域的標準體系。

圖 | S3IP


今天,S3IP生態(tài)已吸引了7家頭部互聯網公司、1家運營商伙伴、10家交換機領域的系統(tǒng)廠家,7家芯片公司的加入,目前,已經貢獻超過2萬+行代碼供生態(tài)伙伴使用,超過30款系統(tǒng)按照S3IP標準進行適配。S3IP當前的標準化覆蓋了白盒交換機底層硬件、底層軟件、平臺測試,正在向芯片標準化進發(fā)。

S3IP在扎根國內的同時,也不忘輸出影響力到國際上。去年,S3IP將PIT/Sysfs推到了SONiC社區(qū),PIT/Sysfs HLD PR已獲通過;在未來網卡和交換機融合的新領域,S3IP也會和DASH社區(qū)保持緊密溝通。

圖 | S3IP-SONiC


QSFP112

除了S3IP這一白盒標準化組織,阿里在交換機端口的標準化上也進行了持續(xù)的推動和貢獻,主導發(fā)起了QSFP112 MSA組織。

阿里的網絡架構,決定了在交換機設備上會持續(xù)走單芯片128端口的路線。結合交換芯片從25.6G到51.2G,再到102.4T的演進路線,阿里的交換機端口會長期使用4個lane的方案。簡單來說,就是一個端口由四個高速串行電信號組成。

當串行電信號的速率為25G,單個端口速率為100G,這就是業(yè)界現有的QSFP28標準。

串行電信號的速率為50G,單個端口速率為200G,業(yè)界標準就是QSFP56標準。

當確定了長期的架構方案后,我們發(fā)現:當串行電信號的速率達到112G的時候,也就是單端口400G的時候,業(yè)界還沒有這樣的標準(很大一部分原因是由于北美四大互聯網的網絡和交換機路線和我們存在差異,他們走的是單端口8個或16個高速串行信號的方案)。這便驅動了阿里云在2021年率先發(fā)起QSFP112標準。使得整個產業(yè)鏈為400G時代做好了準備,也為未來QSFP224標準打下了堅實的基礎。

圖 | QSFP112


04

總結展望

阿里的白盒交換機自研趕上了云計算快速發(fā)展的年代。經過多年的實戰(zhàn)檢驗,阿里在白盒交換機領域積累了豐富的經驗。

歸根到底,軟硬件自研服務的是阿里整個網絡架構的平滑和快速迭代,降低單位帶寬的成本;同時,軟硬件自研服務也為阿里的大規(guī)模自動化運營提供了基礎。

隨著處理器和存儲能力不斷升級,AI等新應用的興起,網絡的性能變得愈加重要。在這樣的背景下,阿里提出了“可預期網絡”的理念。“可預期網絡”的核心,是通過端和網的協(xié)同與融合,保證網絡的帶寬和延遲,這一思想的前提,是需要端側和網側的透明,而交換機的自主可控是這個思想的基礎之一。

和傳統(tǒng)的計算不同,AI和智算有著特殊的流量模型,all-reduce的算法使得網絡更容易出現Incast,而任務本身對于Incast造成的擁塞也更為敏感。

新形勢下,我們的AI網絡如何搭建和優(yōu)化?我們的自研交換機怎樣配合新的網絡架構去支持新的業(yè)務場景?這些都是阿里云“可預期網絡”目前需要思考的問題?!翱深A期網絡”的目標和新興的智算業(yè)務,驅動著自研交換機的未來發(fā)展。

END

立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:阿里云基礎設施
版權說明:本文內容來自于阿里云基礎設施,本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯系管理員(zzx@kchuhai.com)刪除!
優(yōu)質服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家