云計(jì)算基礎(chǔ)設(shè)施軟硬一體化,騰訊云如何“舊路新走”?

來(lái)源: 百家號(hào)
作者:鄭凱Kay
時(shí)間:2020-12-31
17587
隨著算力趨于集中,云計(jì)算基礎(chǔ)設(shè)施也在經(jīng)歷新一輪的變化。軟硬一體,一個(gè)不甚新鮮的詞匯,在不同時(shí)代卻有不同的內(nèi)涵,云計(jì)算時(shí)代的軟硬一體如何演進(jìn)?

云計(jì)算正迎來(lái)屬于它的黃金十年。

中國(guó)信通院數(shù)據(jù)顯示,2019年,全球云計(jì)算市場(chǎng)規(guī)模達(dá)到1883億美元,增速20.86%。預(yù)計(jì)2023年市場(chǎng)規(guī)模將超過(guò)3500億美元。在國(guó)內(nèi)市場(chǎng),2019年云計(jì)算市場(chǎng)規(guī)模達(dá)1334億元,增速38.61%。其中,公有云市場(chǎng)規(guī)模達(dá)到689億元,較2018年增長(zhǎng)57.6%,規(guī)模首次超過(guò)私有云。

云計(jì)算歷史性發(fā)展的背后,是一部產(chǎn)業(yè)變遷史。IT基礎(chǔ)設(shè)施從主機(jī)時(shí)代的集中,到PC時(shí)代的離散,云計(jì)算的興起,再一次將IT基礎(chǔ)設(shè)施集中化,IT產(chǎn)業(yè)似乎也在遵循著“否定之否定”的鐘擺定理。

77c6a7efce1b9d1628a282254fa264888d546495.jpg

隨著算力趨于集中,云計(jì)算基礎(chǔ)設(shè)施也在經(jīng)歷新一輪的變化。軟硬一體,一個(gè)不甚新鮮的詞匯,在不同時(shí)代卻有不同的內(nèi)涵,云計(jì)算時(shí)代的軟硬一體如何演進(jìn)?

騰訊云自研服務(wù)器上新,堅(jiān)定戰(zhàn)略布局

在騰訊2020 Techo Park開(kāi)發(fā)者大會(huì),騰訊云重磅發(fā)布星星海首款自研GPU服務(wù)器和星星海新一代自研雙路服務(wù)器,后者也是國(guó)內(nèi)首款搭載第三代英特爾至強(qiáng)可擴(kuò)展處理器(Ice Lake)的雙路服務(wù)器。

早在2019年10月份,騰訊云就發(fā)布了首款基于AMD平臺(tái)的星星海服務(wù)器,持續(xù)不斷地發(fā)布自研硬件新品,說(shuō)明騰訊云絕對(duì)不是“玩票”性質(zhì)。

星星海首款自研GPU服務(wù)器在設(shè)計(jì)上實(shí)現(xiàn)了全球首創(chuàng),機(jī)框最短,適配主流機(jī)架,在同一框架內(nèi)可以靈活更換主板,并且支持多平臺(tái)兼容。同時(shí)結(jié)合業(yè)務(wù)對(duì)PCIe帶寬要求低的特點(diǎn),支持16卡GPU+4路intel服務(wù)器,達(dá)到業(yè)界最高密度,可大幅降低單卡TCO。

星星海新一代自研雙路服務(wù)器率先采用第三代英特爾至強(qiáng)可擴(kuò)展處理器,經(jīng)測(cè)試,星星海新一代自研雙路服務(wù)器通過(guò)深度優(yōu)化定制,計(jì)算密度提升50%;通過(guò)高性能散熱器和研發(fā)創(chuàng)新獨(dú)立風(fēng)道設(shè)計(jì),散熱方案支持CPU功效提升45%;基于增強(qiáng)的可靠性、可用性和可服務(wù)性(RAS)技術(shù),可多維度全覆蓋故障診斷、精細(xì)化定位等問(wèn)題明確故障,使宕機(jī)率減少50%。

那么,騰訊為什么要做自研服務(wù)器?

2f738bd4b31c870164f946219a034e280608ff2b.jpg

騰訊云服務(wù)器與供應(yīng)鏈管理部總經(jīng)理劉裕勛強(qiáng)調(diào),騰訊做硬件從來(lái)不會(huì)單純的跟風(fēng),而是結(jié)合自己的實(shí)際情況做演進(jìn)。騰訊服務(wù)器從零到超百萬(wàn)臺(tái),二十年時(shí)間可分為三個(gè)時(shí)期,2000年到2010年階段的PC互聯(lián)網(wǎng)階段,2010年到2016年的移動(dòng)互聯(lián)網(wǎng)階段,以及2016到現(xiàn)在的云時(shí)代。

不同時(shí)期的業(yè)務(wù)矛盾特點(diǎn)不一樣,早期以QQ業(yè)務(wù)為核心,業(yè)務(wù)類(lèi)型比較單一,依靠服務(wù)器的增加就能解決;到了移動(dòng)互聯(lián)網(wǎng)時(shí)代,騰訊開(kāi)始爆發(fā)式增長(zhǎng),社交、游戲、視頻、微信等內(nèi)容產(chǎn)品快速崛起,不同業(yè)務(wù)架構(gòu)復(fù)雜,催生了硬件定制化需求,如存儲(chǔ)服務(wù)器等。

“現(xiàn)在騰訊走上了自研服務(wù)器的道路,內(nèi)部架構(gòu)會(huì)逐步趨同,趨同的情況下我們有更好的辦法做更通用的硬件定制,我們要考慮更好的性價(jià)比和更穩(wěn)定的質(zhì)量。這是騰訊做服務(wù)器的初衷。”劉裕勛說(shuō)道。

騰訊運(yùn)營(yíng)管理部總經(jīng)理陳鐵鋼也表示,過(guò)去服務(wù)器的研發(fā)周期長(zhǎng)達(dá)一年左右,騰訊將所有業(yè)務(wù)架構(gòu)的團(tuán)隊(duì)和服務(wù)器團(tuán)隊(duì)集中在一起進(jìn)行評(píng)測(cè),軟件團(tuán)隊(duì)和硬件團(tuán)隊(duì)協(xié)同,找到最佳適配的平衡點(diǎn),從而大大縮短了服務(wù)器的研發(fā)時(shí)間。

“單純依靠硬件不能滿足業(yè)務(wù)所有負(fù)載,比如高密度服務(wù)器的存儲(chǔ)I/O能力會(huì)成為業(yè)務(wù)瓶頸,騰訊通過(guò)提供PaaS平臺(tái)解決了這個(gè)問(wèn)題,用戶雖然感知不到,但是已經(jīng)在享受軟硬一體帶來(lái)的好處?!标愯F鋼說(shuō)。

軟硬一體,騰訊補(bǔ)充全局版圖

“2018年‘930’變革之后,開(kāi)源協(xié)同和自研上云就成為了騰訊未來(lái)在技術(shù)演進(jìn)上面大的戰(zhàn)略調(diào)整。通過(guò)自有業(yè)務(wù),比如微信、QQ、廣告、大數(shù)據(jù)等等海量規(guī)模業(yè)務(wù)上云,不斷打磨騰訊云的PaaS和IaaS層面能力,來(lái)真正的做到軟硬一體化協(xié)同。”劉裕勛介紹。

真正的軟硬一體協(xié)同,當(dāng)然不是只有服務(wù)器。騰訊式軟硬一體,是以全新自研服務(wù)器產(chǎn)品為核心,圍繞網(wǎng)絡(luò)、存儲(chǔ)和運(yùn)維等細(xì)分領(lǐng)域提供多樣解決方案,打造面向下一代的云計(jì)算基礎(chǔ)設(shè)施。

“云計(jì)算客戶都希望采用低成本、高質(zhì)量的產(chǎn)品,客戶的需求推動(dòng)我們?nèi)プ龈嗟淖兏锖脱葸M(jìn)?;A(chǔ)設(shè)施領(lǐng)域不僅是服務(wù)器,還包括數(shù)據(jù)中心和網(wǎng)絡(luò)等,騰訊正在系統(tǒng)性推進(jìn)整體布局,得益于騰訊的技術(shù)變革,在這樣的戰(zhàn)略轉(zhuǎn)變下大家能夠更好的合作,這也是騰訊能夠把基礎(chǔ)設(shè)施做得很好的一種方式?!标愯F鋼表示。

比如云網(wǎng)絡(luò)面臨著性能壓力、運(yùn)維壓力和可運(yùn)維性方面的挑戰(zhàn),對(duì)此,騰訊云通過(guò)可編程芯片硬件的解決方案使得網(wǎng)絡(luò)帶寬提升的同時(shí),成本縮減約為原來(lái)的三十分之一。

傳統(tǒng)網(wǎng)關(guān)升級(jí)通過(guò)冷升級(jí)的方式,依賴(lài)上聯(lián)交換機(jī)的hash能力和underlay網(wǎng)絡(luò)路由收斂時(shí)間,而騰訊云可編程芯片硬件解決方案通過(guò)單節(jié)點(diǎn)熱升級(jí)的方式,onl控制面把配置按照數(shù)據(jù)面格式固化在內(nèi)存存,利用tonfino dma控制器,升級(jí)后reload配置,整個(gè)熱升級(jí)過(guò)程可以控制在20ms之內(nèi)。

而在網(wǎng)絡(luò)存儲(chǔ)虛擬化軟硬協(xié)同方面,騰訊云推出了下一代容器網(wǎng)絡(luò)方案。該方案可無(wú)縫的支持和存量的云主機(jī)進(jìn)行相互熱遷移,能快速進(jìn)行云主機(jī)和容器服務(wù)部署,并且依托軟硬件協(xié)同實(shí)現(xiàn)的高密度彈性網(wǎng)卡,支持一個(gè)Pod獨(dú)占一張彈性網(wǎng)卡,不再經(jīng)過(guò)節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)議棧(default namespace),極大縮短了容器訪問(wèn)鏈路,縮短了訪問(wèn)時(shí)延,并使PPS可以達(dá)到整機(jī)上限。

在存儲(chǔ)方面,硬盤(pán)容量越來(lái)越大,故障率和故障恢復(fù)時(shí)長(zhǎng)也隨之變長(zhǎng),這會(huì)對(duì)云上開(kāi)發(fā)帶來(lái)很大的穩(wěn)定性挑戰(zhàn)。為了給開(kāi)發(fā)者提供更為穩(wěn)健的云服務(wù),騰訊云通過(guò)對(duì)硬盤(pán)來(lái)料質(zhì)量,運(yùn)營(yíng)監(jiān)控和技術(shù)創(chuàng)新等手段進(jìn)行智能化運(yùn)營(yíng)。

a8773912b31bb0512b802d6d8a060ab34bede050.jpg

騰訊云服務(wù)器運(yùn)營(yíng)中心專(zhuān)家工程師牛犇介紹,在來(lái)料質(zhì)量方面,騰訊云采取基于業(yè)務(wù)模型的來(lái)料篩選機(jī)制,通過(guò)云業(yè)務(wù)模型與硬盤(pán)底層參數(shù)建模,分析參數(shù)統(tǒng)計(jì)分布,定制化篩選標(biāo)準(zhǔn),使得硬盤(pán)年化故障率顯著降低至1/5。在運(yùn)營(yíng)監(jiān)控方面,騰訊云的硬盤(pán)智能監(jiān)控系統(tǒng)通過(guò)多維度硬盤(pán)健康評(píng)分和AI故障預(yù)測(cè),可使硬盤(pán)故障提前識(shí)別率提升至80%。

據(jù)騰訊統(tǒng)計(jì),硬件故障導(dǎo)致的系統(tǒng)宕機(jī)中,內(nèi)存故障占比排第一。騰訊云通過(guò)優(yōu)化算法進(jìn)行內(nèi)存篩選、優(yōu)選X4顆粒內(nèi)存條、使能多種內(nèi)存RAS特性等方式大大提升了服務(wù)器的可靠性。此外,騰訊云也是業(yè)內(nèi)首家在云計(jì)算領(lǐng)域大規(guī)模研發(fā)部署MCA Recovery技術(shù)的云服務(wù)商,該技術(shù)能夠減少40%以上內(nèi)存故障導(dǎo)致的宕機(jī)。

星星海,騰訊ToB必由之路

云計(jì)算行業(yè)新的黃金十年,也是普惠發(fā)展的十年。新基建、數(shù)字經(jīng)濟(jì)、新冠疫情等一系列因素推動(dòng)云計(jì)算行業(yè)競(jìng)爭(zhēng)愈發(fā)激烈,尤其超大規(guī)模數(shù)據(jù)中心的崛起,業(yè)務(wù)需求倒逼服務(wù)器等產(chǎn)品升級(jí),依靠上一形態(tài)的產(chǎn)業(yè)鏈分工,已經(jīng)無(wú)法全部滿足當(dāng)下的客戶需求。

78310a55b319ebc490640b863f5a1ffb1e171610.jpg

星星海硬件實(shí)驗(yàn)室是騰訊首個(gè)硬件工程實(shí)驗(yàn)室,該實(shí)驗(yàn)室專(zhuān)注于硬件系統(tǒng)架構(gòu)設(shè)計(jì)和前瞻性基礎(chǔ)技術(shù)研究,目前騰訊云星星海已經(jīng)發(fā)布了多款自研硬件產(chǎn)品,包括四款自研服務(wù)器和一款智能網(wǎng)卡,并且在計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等全線硬件產(chǎn)品領(lǐng)域申請(qǐng)超過(guò)20多項(xiàng)專(zhuān)利。

星星海,取名自青海省果洛藏族自治州瑪多星星海,以水為名,取靈動(dòng)與智慧之意,頗有互聯(lián)網(wǎng)快速創(chuàng)新的意味。

騰訊是全球最大的幾家CSP(內(nèi)容服務(wù)提供商)之一,服務(wù)器保有量規(guī)模過(guò)百萬(wàn),天然有著業(yè)務(wù)場(chǎng)景的沃土,可以持續(xù)不斷的迭代其底層基礎(chǔ)設(shè)施,隨著騰訊從CSP轉(zhuǎn)型云服務(wù)商,這些自研能力自然而然對(duì)外輸出。

據(jù)了解,騰訊目前在新增服務(wù)器中自研比例達(dá)到10-15%,未來(lái)騰訊云和騰訊業(yè)務(wù)對(duì)自研服務(wù)器的需求將加快提升。

云計(jì)算承載的業(yè)務(wù)規(guī)模呈現(xiàn)指數(shù)級(jí)增長(zhǎng),哪怕萬(wàn)分之一的成本降低或者效率提高,放到騰訊業(yè)務(wù)上都是肉眼可見(jiàn)的收益,騰訊云給千行百業(yè)帶來(lái)的收益更是無(wú)法測(cè)算。

可以確定的是,未來(lái)云計(jì)算的軟硬件一體化技術(shù)會(huì)進(jìn)一步發(fā)展,企業(yè)用戶呼喚更健壯的云基礎(chǔ)設(shè)施平臺(tái),軟硬一體在性能、資源利用率等方面仍有上升潛力。

“云基礎(chǔ)架構(gòu)的復(fù)雜度對(duì)服務(wù)器的質(zhì)量要求會(huì)越來(lái)越高,通用服務(wù)器的質(zhì)量管控?zé)o法很好滿足。不論是部件和整機(jī)系統(tǒng)的匹配,還有上層軟件的適配,勢(shì)必需要騰訊和騰訊云的團(tuán)隊(duì),在更加理解底層整機(jī)系統(tǒng)包和新興技術(shù)協(xié)同的基礎(chǔ)上做文章,騰訊不是為做硬件而做硬件,而是騰訊演進(jìn)過(guò)程中必須要走的那一步。”劉裕勛肯定地表示。

海量云時(shí)代,誰(shuí)能為客戶提供更加穩(wěn)定、更具性價(jià)比的服務(wù),也就意味著獲得了云計(jì)算馬拉松的身位優(yōu)勢(shì),騰訊云已行至中途。

立即登錄,閱讀全文
版權(quán)說(shuō)明:
本文內(nèi)容來(lái)自于百家號(hào),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
騰訊云數(shù)據(jù)庫(kù)PostgreSQL全面支持PG 17
騰訊云數(shù)據(jù)庫(kù)PostgreSQL全面支持PG 17
即日起,騰訊云PostgreSQL全面支持PostgreSQL 17.0。所有用戶可使用大版本升級(jí)能力升級(jí)至最新的PostgreSQL 17.0進(jìn)行體驗(yàn),也可以在產(chǎn)品購(gòu)買(mǎi)頁(yè)直接購(gòu)買(mǎi)。
騰訊云
云服務(wù)
2024-12-152024-12-15
高可用這個(gè)問(wèn)題,加機(jī)器就能解決?
高可用這個(gè)問(wèn)題,加機(jī)器就能解決?
互聯(lián)網(wǎng)服務(wù)的可用性問(wèn)題是困擾企業(yè)IT人員的達(dá)摩克利斯之劍:防于未然,體現(xiàn)不出價(jià)值。已然發(fā)生,又面臨P0危機(jī)。就更別提穩(wěn)定性建設(shè)背后顯性的IT預(yù)算問(wèn)題與隱性的人員成本問(wèn)題。
騰訊云
云服務(wù)
2024-11-252024-11-25
TDSQL TDStore引擎版替換HBase:在歷史庫(kù)場(chǎng)景中的成本與性能優(yōu)勢(shì)
TDSQL TDStore引擎版替換HBase:在歷史庫(kù)場(chǎng)景中的成本與性能優(yōu)勢(shì)
HBase憑借其高可用性、高擴(kuò)展性和強(qiáng)一致性,以及在廉價(jià)PC服務(wù)器上的低部署成本,廣泛應(yīng)用于大規(guī)模數(shù)據(jù)分析。
騰訊云
云服務(wù)
2024-11-042024-11-04
復(fù)雜查詢性能弱,只讀分析引擎來(lái)幫忙
復(fù)雜查詢性能弱,只讀分析引擎來(lái)幫忙
隨著當(dāng)今業(yè)務(wù)的高速發(fā)展,復(fù)雜多表關(guān)聯(lián)的場(chǎng)景越來(lái)越普遍。但基于行式存儲(chǔ)的數(shù)據(jù)庫(kù)在進(jìn)行復(fù)雜查詢時(shí)性能相對(duì)較弱。
騰訊云
云服務(wù)
2024-11-022024-11-02
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家