HAIL是阿里云數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的代號(hào),取自High Availability(高可用),Intelligence(智能化),and Low Latency(低延時(shí)),代表著阿里云構(gòu)建數(shù)據(jù)中心網(wǎng)絡(luò)的理念。
本文帶大家探秘阿里云HAIL數(shù)據(jù)中心網(wǎng)絡(luò),也展望數(shù)據(jù)中心網(wǎng)絡(luò)的未來。
01 云計(jì)算數(shù)據(jù)中心的發(fā)展
數(shù)據(jù)中心誕生之前,網(wǎng)絡(luò)主要用于全球互聯(lián),以及企業(yè)內(nèi)部的組網(wǎng)互通,俗稱公網(wǎng)和內(nèi)網(wǎng)。初期的數(shù)據(jù)中心基于服務(wù)傳統(tǒng)企業(yè)網(wǎng)的技術(shù)進(jìn)行構(gòu)建,逐漸發(fā)展成為一個(gè)獨(dú)立的場(chǎng)景?;ヂ?lián)網(wǎng)和云計(jì)算公司為了向公眾提供互聯(lián)網(wǎng)服務(wù)(如媒體信息、通信交流、搜索查閱、網(wǎng)上購(gòu)物等),需要自身具備服務(wù)全國(guó)甚至全球用戶的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)互聯(lián)能力,這要求后端技術(shù)平臺(tái)能夠處理高并發(fā)的請(qǐng)求,內(nèi)部系統(tǒng)則要對(duì)數(shù)據(jù)進(jìn)行快速的存儲(chǔ)、計(jì)算、搜索,再經(jīng)由互聯(lián)網(wǎng)絡(luò)將結(jié)果輸出給用戶。這種模型對(duì)互聯(lián)網(wǎng)和云計(jì)算的集中化算力能力提出了更高的要求,數(shù)據(jù)中心的場(chǎng)景也隨之誕生。
初期的數(shù)據(jù)中心網(wǎng)絡(luò)采用企業(yè)級(jí)的網(wǎng)絡(luò)設(shè)備進(jìn)行數(shù)據(jù)中心組網(wǎng),如VPC、堆疊,大的二層域和OSPF路由協(xié)議等。這些網(wǎng)絡(luò)技術(shù)在較小的組網(wǎng)規(guī)模條件下并不會(huì)出現(xiàn)太大的問題,但伴隨著互聯(lián)網(wǎng)數(shù)據(jù)中心的算力規(guī)模越來越大,企業(yè)級(jí)的數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)就面臨著性能、穩(wěn)定性、大規(guī)模運(yùn)營(yíng)等方面的挑戰(zhàn)。
02 阿里云HAIL全自研數(shù)據(jù)中心網(wǎng)絡(luò)
自2017年,阿里云進(jìn)入分布式大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)階段,取名HAIL架構(gòu),用“Highly Availability,Intelligence,and Low-latency”描述數(shù)據(jù)中心網(wǎng)絡(luò)的核心理念。
圖 | HAIL:Highly Availability,Intelligence,and Low-latency
同一時(shí)期,為了進(jìn)一步自主掌控?cái)?shù)據(jù)中心網(wǎng)絡(luò)技術(shù)棧,為產(chǎn)品打造更高效穩(wěn)定的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,阿里云開始了全自研體系的設(shè)計(jì)和研發(fā)。HAIL DC5.2是第一代采用全自研交換機(jī)和光互聯(lián)的數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu),通過單芯片自研盒式設(shè)備來構(gòu)建多平面scale out(橫向可擴(kuò)展)的分布式數(shù)據(jù)中心網(wǎng)絡(luò)。
單芯片的架構(gòu)設(shè)計(jì)極大地簡(jiǎn)化了網(wǎng)絡(luò)設(shè)備軟硬件復(fù)雜度,讓研發(fā)工作專注在阿里云HAIL數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)中使用的功能,考慮整網(wǎng)系統(tǒng)的穩(wěn)定性,而不必開發(fā)陷入復(fù)雜但效用不高的多芯片軟硬件功能。
多年積累的網(wǎng)絡(luò)運(yùn)維沉淀和自動(dòng)化平臺(tái)能力,使得數(shù)據(jù)中心網(wǎng)絡(luò)系統(tǒng)具備了實(shí)現(xiàn)分布式大規(guī)模交付運(yùn)維的條件,大規(guī)模網(wǎng)絡(luò)設(shè)備的交付運(yùn)維監(jiān)控自動(dòng)化,從經(jīng)驗(yàn)積累逐步轉(zhuǎn)變成NET系統(tǒng)平臺(tái)(阿里云網(wǎng)絡(luò)交付運(yùn)維自動(dòng)化的監(jiān)管控平臺(tái))的能力。
全自研的軟硬件設(shè)備會(huì)與后端的監(jiān)控管控自動(dòng)化作為一個(gè)整體進(jìn)行設(shè)計(jì)和研發(fā),使得網(wǎng)絡(luò)設(shè)備與監(jiān)管控系統(tǒng)的聯(lián)動(dòng)更加順暢,實(shí)現(xiàn)了高精度、高實(shí)時(shí)性的網(wǎng)絡(luò)性能監(jiān)控,快速發(fā)現(xiàn)問題并自動(dòng)化響應(yīng),數(shù)據(jù)中心自研系統(tǒng)成為一個(gè)整體,而不單單是自研的網(wǎng)絡(luò)設(shè)備。
圖 | 阿里云全自研數(shù)據(jù)中心網(wǎng)絡(luò)
自2019年,阿里云新建數(shù)據(jù)中心就全面采用了基于AliNOS (阿里云自研網(wǎng)絡(luò)操作系統(tǒng))的自研交換機(jī),如上圖,包括園區(qū)核心、集群核心、POD核心、接入TOR,以及基于P4可編程的網(wǎng)關(guān)設(shè)備SNA。
多平面互聯(lián)使得網(wǎng)絡(luò)集群規(guī)模靈活彈性,三層CLOS即可實(shí)現(xiàn)從幾千的小集群到十幾萬(wàn)臺(tái)服務(wù)器接入的超大集群;
Scale out使得冗余度更高,單臺(tái)設(shè)備損失對(duì)整體數(shù)據(jù)中心幾乎無感知;
High-radix單芯片設(shè)備使得轉(zhuǎn)發(fā)跳數(shù)更少的情況下仍可以做到足夠的規(guī)模,將數(shù)據(jù)中心內(nèi)部的轉(zhuǎn)發(fā)時(shí)延壓縮到極致;
兩款設(shè)備即覆蓋了數(shù)據(jù)中心cluster的所有互聯(lián)場(chǎng)景,極大降低了供應(yīng)和運(yùn)維的邊際成本;
阿里去堆疊雙上聯(lián)徹底消除了堆疊系統(tǒng)帶來的穩(wěn)定性隱患,使得數(shù)據(jù)中心網(wǎng)絡(luò)的穩(wěn)定性提升了一個(gè)數(shù)量級(jí),還同時(shí)解決了接入設(shè)備無法軟件升級(jí)的問題,尤其在通過發(fā)揮自研網(wǎng)絡(luò)快速迭代功能實(shí)現(xiàn)業(yè)務(wù)創(chuàng)新的背景下,網(wǎng)絡(luò)團(tuán)隊(duì)在設(shè)備升級(jí)上掌控主動(dòng)權(quán)顯得尤其重要,有助于提升數(shù)據(jù)中心網(wǎng)絡(luò)的運(yùn)維可持續(xù)性。
03 數(shù)據(jù)中心網(wǎng)絡(luò)的技術(shù)趨勢(shì)展望
圖 | 數(shù)據(jù)中心網(wǎng)絡(luò)
近年來,隨著計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,數(shù)據(jù)中心網(wǎng)絡(luò)不但要求“穩(wěn)定的連通性”和“足夠的帶寬”,而且對(duì)“低時(shí)延”和“可預(yù)期網(wǎng)絡(luò)結(jié)果”的訴求也越來越明顯。
高性能計(jì)算歷來對(duì)網(wǎng)絡(luò)時(shí)延有苛刻的要求,簡(jiǎn)單的帶寬堆砌并不能滿足要求;
大數(shù)據(jù)場(chǎng)景,尤其是人工智能場(chǎng)景的機(jī)器學(xué)習(xí)(特別是深度學(xué)習(xí))場(chǎng)景催生了AI革命的到來,訓(xùn)練推理算力成為各大科技公司的必備基礎(chǔ)設(shè)施,這要求網(wǎng)絡(luò)的“帶寬+時(shí)延”均衡能力,以盡可能短的時(shí)間來完成大量數(shù)據(jù)的分發(fā)與聚合;
云計(jì)算分布式存儲(chǔ),本質(zhì)上是“計(jì)算存儲(chǔ)資源分離 + 本地存儲(chǔ)性能要求”,隨著存儲(chǔ)介質(zhì)性能的升級(jí),對(duì)網(wǎng)絡(luò)時(shí)延越來越敏感,要求不但是“低時(shí)延”,在用戶體驗(yàn)上“穩(wěn)定可預(yù)期的IO”尤為關(guān)鍵。
池化也是一個(gè)核心趨勢(shì)。池化的概念很廣,對(duì)云計(jì)算數(shù)據(jù)中心而言,池化是永恒的主題,但不同階段池化的均衡點(diǎn)有所不同。廣義上,云計(jì)算本身就是算力的池化,對(duì)社會(huì)提供共享、低成本、簡(jiǎn)單易用的算力,所以計(jì)算存儲(chǔ)網(wǎng)絡(luò)能力的構(gòu)建都是以“實(shí)現(xiàn)大池的同時(shí)又向用戶提供獨(dú)享的計(jì)算存儲(chǔ)網(wǎng)絡(luò)空間”作為目標(biāo)。狹義上,池化指的是計(jì)算、存儲(chǔ)在更小模型尺度上的池化,比如將異構(gòu)算力做成大池的同時(shí)如何做到給用戶以獨(dú)享性能級(jí)別的算力呈現(xiàn),比如將存儲(chǔ)做成大池的同時(shí)如何給用戶以獨(dú)享本地存儲(chǔ)級(jí)別的IO性能,其核心挑戰(zhàn)是大規(guī)模池化后的系統(tǒng)性能如何隨著規(guī)模線性增長(zhǎng),這其中網(wǎng)絡(luò)作為系統(tǒng)IO是核心決定因素。
圖 | 異構(gòu)算力的池化
新的計(jì)算模型,以容器為基礎(chǔ)的云原生技術(shù)以應(yīng)用為中心,圍繞應(yīng)用來構(gòu)建彈性、簡(jiǎn)單復(fù)制、高效運(yùn)維的基礎(chǔ)設(shè)施能力,對(duì)網(wǎng)絡(luò)的要求是“彈性”和“密度”,這看似對(duì)網(wǎng)絡(luò)的依賴不是很明顯,實(shí)際上云原生的形態(tài)要求云基礎(chǔ)設(shè)施呈現(xiàn)為更廣義的池化形態(tài),使得云原生的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)等系統(tǒng)可以屏蔽對(duì)底層基礎(chǔ)設(shè)施的功能感知,這也越來越要求網(wǎng)絡(luò)與容器的融合能力提升,云原生的網(wǎng)絡(luò)卸載加速會(huì)成為未來數(shù)據(jù)中心網(wǎng)絡(luò)的基礎(chǔ)能力。
從“大規(guī)模算力互聯(lián)”角度來看數(shù)據(jù)中心網(wǎng)絡(luò)未來的發(fā)展趨勢(shì):
物理網(wǎng)絡(luò)芯片吞吐性能進(jìn)一步提升
網(wǎng)絡(luò)芯片的摩爾演進(jìn)將進(jìn)一步提升吞吐性能,這并不單單是通用計(jì)算的網(wǎng)絡(luò)需求曲線延續(xù)(實(shí)際上通用計(jì)算對(duì)網(wǎng)絡(luò)增長(zhǎng)的需求在放緩,而異構(gòu)計(jì)算仍需求強(qiáng)烈),還包括網(wǎng)絡(luò)自身降低單位吞吐成本的目標(biāo)。在這個(gè)過程中會(huì)遇到芯片技術(shù)、供應(yīng)生態(tài)、成本等方面的挑戰(zhàn),業(yè)界會(huì)形成新的應(yīng)對(duì)方式。
低時(shí)延轉(zhuǎn)發(fā)
低時(shí)延轉(zhuǎn)發(fā)會(huì)是高性能計(jì)算、AI、存儲(chǔ)和數(shù)據(jù)庫(kù)等池化場(chǎng)景的競(jìng)爭(zhēng)力核心,這需要端到端網(wǎng)絡(luò)的全棧創(chuàng)新,從協(xié)議到流控再到網(wǎng)絡(luò)轉(zhuǎn)發(fā)。高性能計(jì)算、AI相對(duì)特殊,需要有獨(dú)立的拓?fù)湓O(shè)計(jì)乃至于特定的轉(zhuǎn)發(fā)芯片,這種低時(shí)延轉(zhuǎn)發(fā)不是一個(gè)絕大多數(shù)場(chǎng)景的趨勢(shì)和訴求,但這方面的創(chuàng)新會(huì)引領(lǐng)帶動(dòng)其他通用場(chǎng)景的技術(shù)演進(jìn),發(fā)揮“特定場(chǎng)景創(chuàng)新傳導(dǎo)給通用場(chǎng)景”的創(chuàng)新效應(yīng)。
04 可預(yù)期網(wǎng)絡(luò)
以太網(wǎng)最初以“best-effort”這種簡(jiǎn)單粗暴的方式脫穎而出成為主流,將流控、丟包處理等工作交給靈活的端側(cè)軟件,通過端到端的機(jī)制來實(shí)現(xiàn),以太網(wǎng)自己則專注于轉(zhuǎn)發(fā),這使得以太網(wǎng)轉(zhuǎn)發(fā)能力一騎絕塵,從全局來看這是一種“最經(jīng)濟(jì)”的分工模式。然而,隨著上文提到的技術(shù)趨勢(shì)越來越明顯,以太網(wǎng)的“盡力而為”將會(huì)成為一些場(chǎng)景下的短板,如何基于以太網(wǎng)實(shí)現(xiàn)“可預(yù)期”的網(wǎng)絡(luò)服務(wù),是網(wǎng)絡(luò)發(fā)展的關(guān)鍵命題??深A(yù)期網(wǎng)絡(luò)意味著應(yīng)用對(duì)于網(wǎng)絡(luò)的行為結(jié)果有相對(duì)可控的預(yù)期,并基于這個(gè)預(yù)期來設(shè)計(jì)應(yīng)用系統(tǒng),這會(huì)讓應(yīng)用架構(gòu)更簡(jiǎn)單。就好比交通出行,對(duì)于中長(zhǎng)途旅行,選擇飛機(jī)雖時(shí)間短但存在較大延誤風(fēng)險(xiǎn),選擇汽車可有大致可控的范圍但旅途時(shí)間長(zhǎng),而高鐵是準(zhǔn)時(shí)發(fā)車準(zhǔn)時(shí)抵達(dá),時(shí)間相對(duì)短且誤差最小,不必?fù)?dān)心因?yàn)樾谐痰⒄`某個(gè)重要會(huì)議,這使得整個(gè)社會(huì)在時(shí)間效率上可以做到更好??深A(yù)期網(wǎng)絡(luò)的理念即是如此,讓應(yīng)用更簡(jiǎn)單,效率更高。
可預(yù)期網(wǎng)絡(luò),首先要做的是實(shí)現(xiàn)技術(shù)棧的自主掌控。阿里云已經(jīng)實(shí)現(xiàn)了基于自研的網(wǎng)卡、交換機(jī)、光互聯(lián)來構(gòu)建自主掌控的數(shù)據(jù)中心網(wǎng)絡(luò),這使得底層網(wǎng)絡(luò)變得穩(wěn)定可控。剛剛過去的云棲大會(huì)上,阿里云發(fā)布了多項(xiàng)可預(yù)期網(wǎng)絡(luò)新品,其中的關(guān)鍵因素是技術(shù)棧的自主掌控。
圖 | 阿里巴巴網(wǎng)絡(luò)自研全景圖
阿里云提出協(xié)同設(shè)計(jì)(下圖)的架構(gòu)理念來實(shí)現(xiàn)端到端的可預(yù)期網(wǎng)絡(luò)。對(duì)云計(jì)算系統(tǒng)而言,網(wǎng)絡(luò)是整體系統(tǒng)設(shè)計(jì)中的一環(huán),基于協(xié)同設(shè)計(jì)的理念,我們通過網(wǎng)絡(luò)與應(yīng)用的協(xié)同設(shè)計(jì)、端側(cè)網(wǎng)絡(luò)與交換網(wǎng)絡(luò)的協(xié)同設(shè)計(jì)、網(wǎng)絡(luò)架構(gòu)創(chuàng)新升級(jí)三個(gè)方面來實(shí)現(xiàn)可預(yù)期網(wǎng)絡(luò),近年來阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團(tuán)隊(duì)已經(jīng)在這三個(gè)方面已經(jīng)取得了很多研究研發(fā)成果,大部分技術(shù)也已經(jīng)實(shí)現(xiàn)了規(guī)模部署。
圖 | 端網(wǎng)協(xié)同的系統(tǒng)架構(gòu)與成果
可預(yù)期網(wǎng)絡(luò)將是一個(gè)系統(tǒng)工程,從網(wǎng)絡(luò)物理元素的軟硬件全自研,到針對(duì)產(chǎn)品技術(shù)棧優(yōu)化的高性能協(xié)議和流控,從端到端的網(wǎng)絡(luò)系統(tǒng)設(shè)計(jì)再到基于可編程芯片的硬件加速,最后由網(wǎng)絡(luò)后端監(jiān)管控系統(tǒng)來支撐整體網(wǎng)絡(luò)的智能化運(yùn)維,這些能力融合在一起,形成了一個(gè)完整的可預(yù)期數(shù)據(jù)中心網(wǎng)絡(luò)體系。
圖 | 阿里云高性能可預(yù)期數(shù)據(jù)中心網(wǎng)絡(luò)體系
—END—