連續(xù)三年入選國際頂會(huì),彰顯了阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團(tuán)隊(duì)的技術(shù)沉淀和強(qiáng)大的研發(fā)實(shí)力。
SNA計(jì)算平臺(tái)已在阿里云各個(gè)場景規(guī)模部署,例如網(wǎng)絡(luò)可視化、邊緣云超融合網(wǎng)關(guān)、安全、高性能、以及云網(wǎng)關(guān)等。
XLINK已集成在手淘完成了大規(guī)模測試,測試結(jié)果優(yōu)異,即將開源XLINK的整體架構(gòu)和協(xié)議,將著力與整個(gè)業(yè)界一同打造多路徑QUIC協(xié)議,為消費(fèi)者提供更好的體驗(yàn)。
近日,SIGCOMM 2021論文錄取結(jié)果公布, 阿里云網(wǎng)絡(luò)以三篇論文命中的驕人戰(zhàn)績向世人展示著來自東方的創(chuàng)新風(fēng)暴,也續(xù)寫了阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團(tuán)隊(duì)從2019年開始與SIGCOMM 不間斷的“緣分”!
SIGCOMM,全稱Special Interest Group on Data Communication,是目前國際通信網(wǎng)絡(luò)領(lǐng)域的頂尖會(huì)議,也 是全球最頂尖科研機(jī)構(gòu)、高校和互聯(lián)網(wǎng)公司展示自身最先進(jìn)技術(shù)和經(jīng)驗(yàn),帶領(lǐng)網(wǎng)絡(luò)技術(shù)各個(gè)領(lǐng)域向前發(fā)展的年度盛會(huì)。2019年,阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團(tuán)隊(duì)在SIGCOMM上實(shí)現(xiàn)了主會(huì)論文的首次歷史性突破,2020年,4篇論文入選震動(dòng)了網(wǎng)絡(luò)界,今年又再中三元。連續(xù)三年入選國際頂會(huì),也彰顯了阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團(tuán)隊(duì)的技術(shù)沉淀和強(qiáng)大的研發(fā)實(shí)力。
與一般學(xué)術(shù)論文不同的是,此次入選的三篇論文 不但有創(chuàng)新性想法,更重要的是將理論落地,運(yùn)用在阿里的具體產(chǎn)品中,為用戶帶來技術(shù)普惠。下面我們將近距離看一下,這三顆阿里網(wǎng)絡(luò)技術(shù)的“明珠”到底憑什么秘訣得到SIGCOMM評委的青睞。
01、Aquila:阿里云可編程異構(gòu)計(jì)算驗(yàn)證器
可編程交換芯片(programmable switching ASIC)自 2015年問世以來,就受到了全球幾乎所有云網(wǎng)絡(luò)公司及科研學(xué)術(shù)界的極大關(guān)注與歡迎。它可以看做是 一種異構(gòu)計(jì)算硬件,其本質(zhì)是通過對交換機(jī)芯片的編程,將原本依賴CPU計(jì)算的軟件版網(wǎng)絡(luò)應(yīng)用“卸載”到交換芯片硬件上,從而獲得高達(dá)T級的網(wǎng)絡(luò)數(shù)據(jù)包處理能力,極大提升網(wǎng)絡(luò)應(yīng)用的帶寬且降低延遲;同時(shí),由于可編程芯片的靈活可編程性,開發(fā)人員可以像軟件開發(fā)一樣靈活地的定制交換芯片的處理邏輯。當(dāng)前的主流芯片廠商已紛紛推出了各自的可編程芯片,利用可編程芯片來加速基礎(chǔ)設(shè)施的處理能力已被認(rèn)為是未來一條重要的技術(shù)方向。
然而,在過去幾年,雖然學(xué)術(shù)界同仁發(fā)表了大量利用可編程芯片實(shí)現(xiàn)各種應(yīng)用的論文,卻從未看到任何云網(wǎng)絡(luò)公司大規(guī)模部署可編程芯片的實(shí)例。究其原因,主要 由于該技術(shù)尚屬于較為前沿階段,雖然其價(jià)值被廣泛認(rèn)可,但其部署效率、穩(wěn)定性等都存在諸多技術(shù)挑戰(zhàn)和開放性難題,因此令很多科技公司望而卻步。
阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團(tuán)隊(duì)作為可編程網(wǎng)絡(luò)領(lǐng)域的早期發(fā)起者和推動(dòng)者,多年以來一直致力于在整個(gè)可編程網(wǎng)絡(luò)的應(yīng)用和生態(tài)平臺(tái)上做出突破性的工作,帶動(dòng)整個(gè)產(chǎn)業(yè)向前發(fā)展。在阿里云諸多工作中,“太玄OS”可編程網(wǎng)絡(luò)開發(fā)、驗(yàn)證、測試和發(fā)布平臺(tái)成為了一個(gè)在學(xué)術(shù)和產(chǎn)業(yè)落地雙豐收的明星項(xiàng)目(如圖1所示)。 在SIGCOMM20,太玄OS發(fā)表了自己的跨平臺(tái)編程語言和編譯器Lyra(“Lyra: A Cross-Platform Language and Compiler for Data Plane Programming on Heterogeneous ASICs”),闡明了可編程網(wǎng)絡(luò)領(lǐng)域在編程抽象層面的巨大挑戰(zhàn)和揭示了阿里云的解決方案。
圖1|阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團(tuán)隊(duì)自主研發(fā)的“太玄OS”可編程網(wǎng)絡(luò)異構(gòu)計(jì)算平臺(tái)
今年,阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團(tuán)隊(duì)又發(fā)表了Lyra的姊妹篇Aquila (“Aquila: A Practically Usable Verification System for Production-Scale Programmable Data Planes ”)來介紹阿里對可編程網(wǎng)絡(luò)程序正確性保障方面的獨(dú)樹一幟的創(chuàng)新和大規(guī)模的落地經(jīng)驗(yàn)。Aquila的目標(biāo)是利用形式化驗(yàn)證的方法來發(fā)現(xiàn)異構(gòu)環(huán)境下底層程序的bug,以避免系統(tǒng)上線后的穩(wěn)定性風(fēng)險(xiǎn)。它通過實(shí)際的運(yùn)行和部署經(jīng)驗(yàn)指出了目前學(xué)術(shù)界在這個(gè)方面的工作的不足,并且通過自主研發(fā)的系統(tǒng)解決了如:表達(dá)性、可擴(kuò)展性、可追溯性和驗(yàn)證器自證清白能力等在業(yè)界懸而未決的問題。Aquila已經(jīng)在阿里云ENS/CDN的邊緣計(jì)算場景中大量使用,為阿里邊緣云的穩(wěn)定性保駕護(hù)航。
02、XGW:阿里云可編程硬件網(wǎng)關(guān)
阿里云在可編程網(wǎng)絡(luò)領(lǐng)域的另一個(gè)重要舉措就是打造自主可控的以SNA (Smart Networking Appliance) 硬件和AliNOS (Alibaba Network Operating System)軟件為基礎(chǔ)的軟硬件一體化的可編程計(jì)算平臺(tái)和在這個(gè)平臺(tái)上的應(yīng)用。圖2展示了整個(gè)阿里自研SNA可編程計(jì)算平臺(tái)的概覽。SNA平臺(tái)的軟件層運(yùn)行阿里自研的網(wǎng)絡(luò)操作系統(tǒng)AliNOS,硬件層包含了可編程芯片、FPGA、x86以及靈活插口等。SNA作為底層設(shè)備,上面由平臺(tái)能力如:監(jiān)控、交付/變更、太玄編譯/驗(yàn)證,以及測試等保證SNA的運(yùn)營效率與穩(wěn)定性。目前, SNA計(jì)算平臺(tái)已在阿里云各個(gè)場景規(guī)模部署,例如網(wǎng)絡(luò)可視化、邊緣云超融合網(wǎng)關(guān)、安全、高性能、以及云網(wǎng)關(guān)等。在SIGCOMM20中,阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團(tuán)隊(duì)發(fā)表的“NetSeer:Flow Event Telemetry on Programmable Data Plane”就已經(jīng)率先揭開了阿里云在可編程網(wǎng)絡(luò)應(yīng)用上的冰山一角。
圖2|阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團(tuán)隊(duì)自主研發(fā)的可編程網(wǎng)關(guān)軟硬件體系
今年阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團(tuán)隊(duì)和網(wǎng)絡(luò)產(chǎn)品團(tuán)隊(duì)(洛神云網(wǎng)絡(luò))共同合作的“Sailfish: Accelerating Cloud-Scale Multi-Tenant Multi-Service Gateways with Programmable Switches”被SIGCOMM21錄取,繼續(xù)著阿里在可編程網(wǎng)絡(luò)應(yīng)用方面的領(lǐng)軍地位。這個(gè)內(nèi)部代號(hào)為XGW (eXtendable GateWay) 的云網(wǎng)關(guān)系統(tǒng)是利用SNA這樣的平臺(tái)來替代CPU,提高轉(zhuǎn)發(fā)性能的同時(shí)減小部署成本的典范。 在阿里云網(wǎng)絡(luò)技術(shù)和產(chǎn)品同學(xué)的共同努力下,XGW已經(jīng)實(shí)現(xiàn)了超大規(guī)模部署,為億萬阿里云用戶提供了高性能,高質(zhì)量的云網(wǎng)絡(luò)服務(wù)。
03、XLINK:阿里巴巴主導(dǎo)的多路徑QUIC方案
除了云網(wǎng)絡(luò)領(lǐng)域,今年阿里巴巴也在移動(dòng)網(wǎng)絡(luò)傳輸領(lǐng)域發(fā)出了“時(shí)代最強(qiáng)音”。阿里巴巴在IETF QUIC工作組提出自己的多路徑草案并且廣受關(guān)注之后,由達(dá)摩院XG實(shí)驗(yàn)室、手淘淘系技術(shù)、阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)團(tuán)隊(duì)共同合作研發(fā)的XLINK(“XLINK: QoE-Driven Multi-Path QUIC Transport in Large-scale Video Services”)也被SIGCOMM21正式接收。
圖3|XLINK的整體系統(tǒng)架構(gòu)
QUIC技術(shù)是由Google提出, 并于2017年在SIGCOMM會(huì)議上發(fā)表了QUIC相關(guān)論文, 引起了業(yè)界的巨大反響, 今年IETF QUIC 1.0標(biāo)準(zhǔn)工作正式完成, 下一代HTTP協(xié)議HTTP3正是基于QUIC來實(shí)現(xiàn)的??梢哉f, QUIC是目前移動(dòng)互聯(lián)網(wǎng)中最核心和關(guān)鍵的技術(shù), 現(xiàn)如今, 超過50%的Chrome瀏覽器流量和75%的Facebook流量都在使用QUIC進(jìn)行傳輸。 經(jīng)過過去幾年的不懈努力, 阿里巴巴從QUIC技術(shù)的追隨者快速成長為QUIC技術(shù)的創(chuàng)新者, 并在多路徑QUIC技術(shù)上取得了突破, XLINK相關(guān)論文已經(jīng)被頂級學(xué)術(shù)會(huì)議SIGCOMM 2021正式接收, 這也是SIGCOMM會(huì)議歷史上第一篇關(guān)于多路徑QUIC的文章。
XLINK已經(jīng)集成在手淘完成了大規(guī)模測試, 測試結(jié)果表明, XLINK在弱網(wǎng)下使用可以實(shí)現(xiàn)短視頻下載時(shí)間降低50%, 首幀加載時(shí)間降低32%, 視頻卡頓率降低66%, 額外的流量成本降低85%。此外, 在高鐵上, XLINK的用戶可以同時(shí)連接高鐵WiFi與手機(jī)LTE, 在高速移動(dòng)的情況下仍然保持流暢的視頻觀看體驗(yàn)。另外,阿里巴巴也即將開源XLINK的整體架構(gòu)和協(xié)議,將著力與整個(gè)業(yè)界一同打造多路徑QUIC協(xié)議,為消費(fèi)者提供更好的體驗(yàn)。
俗話說“十全十美”,2021年對于阿里網(wǎng)絡(luò)技術(shù)人來說也是一個(gè)圓滿的一年。從2019開始,截止目前,阿里網(wǎng)絡(luò)技術(shù)已經(jīng)有10篇SIGCOMM論文被錄取。網(wǎng)絡(luò)領(lǐng)域眾多國際專家紛紛被阿里論文“圈粉”,因?yàn)?nbsp;不但有創(chuàng)新大膽超前的思維,更重要的是 阿里堅(jiān)持技術(shù)創(chuàng)新,把技術(shù)與實(shí)際應(yīng)用場景相結(jié)合,讓技術(shù)“走出”實(shí)驗(yàn)室,實(shí)現(xiàn)“技術(shù)普惠”。
除了SIGCOMM,今年阿里云基礎(chǔ)設(shè)施網(wǎng)也在系統(tǒng)領(lǐng)域頂級會(huì)議USENIX ATC發(fā)表了論文“Hashing Linearity Enables Relative Path Control in Data Centers”來介紹已經(jīng)在阿里網(wǎng)絡(luò)自研交換機(jī)部署的交換芯片hash算法特性分析,以及DCMR多路徑故障恢復(fù)的方法,這也同樣是阿里網(wǎng)絡(luò)技術(shù)創(chuàng)新和落地相融合的代言。