文/白楊
2009年,阿里云的成立,拉開了中國云計算的大幕。如果提煉阿里云第一個十年的核心成就,那非“飛天”莫屬。
“飛天”是阿里云自主研發(fā)的超大規(guī)模通用計算操作系統(tǒng),在它的連接下,分布在全球的數(shù)百萬臺服務器被整合成為一臺超級計算機,由此形成的計算能力構(gòu)成了阿里云的底座。
過去十余年,飛天操作系統(tǒng)在計算、存儲、網(wǎng)絡、安全等核心服務方面的能力不斷進化,服務的客戶也越來越多。從支撐阿里內(nèi)部的局部試點到全量上云,再到服務外部數(shù)十萬用戶,飛天托起了阿里云的上一個十年。
而現(xiàn)在,伴隨著數(shù)字經(jīng)濟的發(fā)展,整個社會的生產(chǎn)要素都在發(fā)生改變,這對于正邁入新十年發(fā)展的阿里云來說,是機遇也是挑戰(zhàn)。
在2021云棲大會上,阿里云智能總裁張建鋒表示,“過去,我們說云是IT的一部分,而現(xiàn)在,IT已經(jīng)變成云的一部分”。在其看來,一個以云為核心的新型計算體系結(jié)構(gòu)正在形成,隨著云網(wǎng)端技術進一步融合,未來無論企業(yè)或個人,計算都將進一步向云上遷移。
所以接下來,“上云”不再新鮮,“云原生”才是行業(yè)發(fā)展的核心方向。據(jù)張建鋒介紹,目前,阿里巴巴的業(yè)務已100%跑在公共云上,并且實現(xiàn)了應用100%云原生化。
而基于自身海量業(yè)務帶來的實踐場景,阿里圍繞“云原生”也形成了一條雙向生長的發(fā)展路徑:向上,阿里云在飛天操作系統(tǒng)的基礎上,要將核心軟件基于云來重構(gòu);向下,阿里云則將面向基礎設施層,建設以云為核心的硬件體系。
“倚天”、“磐久”橫空出世
2021云棲大會上,阿里巴巴旗下的半導體公司平頭哥重磅發(fā)布了首顆自研云原生處理器芯片——倚天710。
相比于兩年前發(fā)布的AI推理芯片“含光800”,倚天710作為一顆通用處理器芯片,研發(fā)難度要更大。此前,全球范圍內(nèi)具備這一技術能力的企業(yè)寥寥可數(shù),而現(xiàn)在,平頭哥已經(jīng)躋身其中。
在整個服務器芯片領域仍停留在7nm工藝時代時,倚天710率先采用了業(yè)界最先進的5nm工藝,單芯片容納高達600億晶體管。同時,倚天710在芯片架構(gòu)上是基于最新的ARMv9架構(gòu),內(nèi)含128核CPU,主頻最高達到3.2GHz。
云是高性能服務器芯片最大的應用場景,倚天710完全是為云而生,它針對云場景的高并發(fā)、高性能和高能效需求而設計,通過將領先的芯片設計技術與云場景的獨特需求相結(jié)合,最終實現(xiàn)了性能和能效比的突破。
在SPECInt2017基礎測試平臺上,倚天710的跑分可達440分,這一成績遙遙領先于已問世的芯片,性能超出業(yè)界標桿20%,能效比優(yōu)于業(yè)界標桿50%。
從三年前阿里正式組建平頭哥,到現(xiàn)在實現(xiàn)從專用芯片向通用芯片的跨越,倚天710的發(fā)布足以證明平頭哥已具備復雜大芯片設計的能力,而這,也代表著阿里在芯片這塊最難啃的硬骨頭上取得了實質(zhì)性的突破。
芯片之外,阿里云同時還推出了面向云原生時代的“磐久”自研服務器系列,具體包括高性能計算系列、大容量存儲系列、高性能存儲系列。其中,磐久高性能計算系列將搭載倚天710,并將在今年實現(xiàn)部署,為阿里云自用。
據(jù)悉,磐久服務器系列基于靈活模塊化設計,實現(xiàn)了計算存儲分離,且擁有風冷、液冷不同散熱模式和歸一化的主板,整機柜的設計讓交付效率提升50%。
同時,針對云原生時代容器化、微服務、持續(xù)交付等特點,磐久服務器系列還采用軟硬件融合的方式,通過結(jié)合自研的MOC、FIC、AliFPGA、神盾卡等,滿足了云原生的創(chuàng)新開發(fā)對性能和穩(wěn)定性的極致要求。
隨著“倚天”和“磐久”的問世,阿里云全棧云基礎設施的最后一環(huán)也得到了完善,并實現(xiàn)從芯片、部件到整機的技術及架構(gòu)創(chuàng)新和自研。
軟件性能突破上限
阿里云基于飛天向下定義硬件的同時,在基礎軟件層面也持續(xù)升級迭代。2021云棲大會上,阿里云正式推出第四代神龍架構(gòu)。
作為飛天云操作系統(tǒng)新一代虛擬化技術,神龍4.0首次搭載了大規(guī)模彈性RDMA加速網(wǎng)絡,使得網(wǎng)絡延遲整體降低80%以上。同時,神龍4.0帶來的計算架構(gòu)革新,也將云計算首次帶進5微秒時延時代。
阿里云基礎產(chǎn)品負責人蔣江偉表示,作為新一代虛擬化技術的代表,神龍在設計之初就是因云而生的,這次升級一口氣在IO加速、芯片級安全、云原生彈性和高速網(wǎng)絡四大領域做了非常多的優(yōu)化,為數(shù)據(jù)庫、AI、大數(shù)據(jù)等通用場景帶來性能的飛躍。
據(jù)悉,相比傳統(tǒng)TCP協(xié)議,RDMA能大幅降低網(wǎng)絡通信延遲。而阿里云采用軟硬一體化的設計思路,將彈性RMDA的加速能力融入公共云,讓RDMA從HPC類應用,走向支持通用類計算場景,為Microservice、Serverless、Service Mesh等云原生技術大爆發(fā)提供技術支撐。
除此之外,阿里云在大會上還發(fā)布了定位于服務器端的全新操作系統(tǒng)——龍蜥。據(jù)蔣江偉介紹,龍蜥操作系統(tǒng)已在阿里巴巴內(nèi)部打磨10年,有效支撐了歷年天貓雙11,性能和穩(wěn)定性都經(jīng)受住了嚴苛的考驗。
這次對外發(fā)布,龍蜥也針對云原生應用開發(fā)做了多重優(yōu)化,可為云上典型場景帶來40%的綜合性能提升,故障率降低50%,同時兼容CentOS生態(tài),并支持一鍵遷移及提供全棧國密能力。
作為基礎軟件的另一個核心領域,阿里云自研的云原生關系型數(shù)據(jù)庫PolarDB此次也進行了重磅升級。據(jù)阿里云智能數(shù)據(jù)庫事業(yè)部總負責人李飛飛介紹,在本次技術升級中,PolarDB實現(xiàn)了三項創(chuàng)新:
第一,是在業(yè)內(nèi)首次實現(xiàn)內(nèi)存與計算、存儲的三層解耦,實現(xiàn)內(nèi)存池化,使得彈性能力呈數(shù)量級提升,同時大幅度降低成本;第二,上線多主架構(gòu),進一步提升可用性、并發(fā)處理、彈性能力;第三,成為真正的HTAP數(shù)據(jù)庫系統(tǒng),可同時處理OLTP和OLAP型混合負載。
做深基礎,定義未來
在發(fā)力自研技術的同時,阿里云也在積極擁抱開源生態(tài)。此次云棲大會,阿里云除了將RISC-V架構(gòu)技術開源外,同時也把剛剛發(fā)布的龍蜥操作系統(tǒng)進行了開源,并宣布未來計劃為龍蜥投入20億元專項資金,以及聯(lián)合100家生態(tài)合作伙伴推動生態(tài)建設,且提供至少十年技術支持。
此外,阿里云還發(fā)布了集成阿里整體大數(shù)據(jù)+AI能力的一體化平臺——阿里靈杰。據(jù)悉,阿里靈杰擁有云邊端一體的高性能訓練和推理引擎,可調(diào)動規(guī)模高達10萬臺以上計算集群,真正實現(xiàn)了企業(yè)及開發(fā)者的“開箱即用”。
兩年前,阿里云在成立十周年之際,正式提出了“做深基礎”的商業(yè)策略,這里的基礎,包含著軟件和硬件兩個層面。
在今年的云棲大會上,無論是自研芯片和服務器的發(fā)布,還是各項基礎軟件的升級,其實都是阿里云基于“做深基礎”戰(zhàn)略交出的最新答卷。
然而,阿里云布局硬件,外界也開始擔心這是否會影響其與原先合作硬件廠商的關系。對此,張建鋒表示,阿里云做服務器、交換機,并不是要自己去生產(chǎn),而只是設計,所以這不僅滿足了阿里自身的業(yè)務需求,同時也給產(chǎn)業(yè)帶來了更大的空間。
“比如交換機,阿里云的設計都是開源的,所有廠商只要能滿足這個標準,都可以給我們供貨”,張建鋒說。
對于新發(fā)布的處理器芯片倚天710,張建鋒也表示,這款芯片將不對外出售,主要是阿里云自用?!鞍⒗镌谱鲂酒蔷劢乖谠朴嬎?,而不是半導體。阿里云目前仍然是一家云計算廠商,如果市場上有更好的選擇,我們當然也會采用市場上的解決方案”。
對于任何行業(yè)來說,能否準確判斷未來的方向都至關重要。哪怕只準確判斷出未來三到五年的趨勢,那便足夠使一家企業(yè)處于領先地位。
阿里云目前做的事情,實際上也是基于對未來新型計算體系結(jié)構(gòu)的判斷。作為行業(yè)領導者,阿里云僅滿足當下的市場需求還不夠,它還肩負著引領行業(yè)去探索和定義未來趨勢的重任。
“如果不能為行業(yè)未來的趨勢做出一些產(chǎn)品,那肯定不具備領導者的資格”,張建鋒說,而阿里云從飛天到倚天,打造以云為基礎的軟硬件技術體系,也是為了讓中國云計算在數(shù)字時代具備全球競爭力。