宕機時間少七倍,揭秘AWS基礎(chǔ)設(shè)施的運維之道

來源: 百家號
作者:大數(shù)據(jù)在線
時間:2020-12-19
17377
如果沒有強大的數(shù)據(jù)中心作為支撐,為全球數(shù)以萬計用戶提供各種各樣云服務(wù),AWS不可能連續(xù)多年保持如此驚人的增長速度。

從2006年8月份正式開通云服務(wù),到2020年第三季度收入達到116億美元,同比增長29%,年化收入達到460億美元。AWS營收規(guī)模在一個IT產(chǎn)業(yè)史上堪稱神話,這背后數(shù)據(jù)中心等基礎(chǔ)設(shè)施功不可沒。如果沒有強大的數(shù)據(jù)中心作為支撐,為全球數(shù)以萬計用戶提供各種各樣云服務(wù),AWS不可能連續(xù)多年保持如此驚人的增長速度。

一直以來,AWS的數(shù)據(jù)中心無論是數(shù)量、規(guī)模、設(shè)計、運營都充滿神秘感,外界對其是知之甚少,也是業(yè)界眾多伙伴十分感興趣的。在今年的AWS re:Invent大會上,AWS全球基礎(chǔ)架構(gòu)和客戶支持資深副總裁Peter DeSantis甩出諸多干貨,詳細介紹了AWS的數(shù)據(jù)中心在面向全球服務(wù)眾多用戶是如何做到穩(wěn)定、定制和環(huán)保的。

任何設(shè)備都會壞

數(shù)據(jù)中心等基礎(chǔ)設(shè)施是云服務(wù)商的核心命脈,由于大部分云服務(wù)商隨著業(yè)務(wù)的增長,其數(shù)據(jù)中心的規(guī)模和設(shè)備數(shù)量也會隨之膨脹,帶來的就是數(shù)據(jù)中心故障和宕機風(fēng)險的增長。AWS作為全球云計算巨頭,其數(shù)據(jù)中心規(guī)模無出其右,它又是如何看待風(fēng)險以及解決風(fēng)險的。

“不要去回避各種故障,因為任何設(shè)備都會壞,你需要做的就是預(yù)測什么時候壞,并且做好準(zhǔn)備?!?-這就是AWS在數(shù)據(jù)中心基礎(chǔ)設(shè)施運營和維護的核心原則。也正是在這個原則的指導(dǎo)下,AWS一年的平均宕機時間比2018年規(guī)模次大的云端供應(yīng)商少七倍之多。

token=bff2f7c76acd6d016fa836ec49d73a12&s=2BC29C4BDC05154F3B380D180300C093.jpg

面對規(guī)模如此之大、復(fù)雜性如此高的數(shù)據(jù)中心基礎(chǔ)設(shè)施,AWS的首先思路就是降低各種設(shè)備的復(fù)雜性,比如發(fā)電機組的配電系統(tǒng)和UPS,這些都是傳統(tǒng)廠商生產(chǎn)的通用型產(chǎn)品,往往擁有豐富的功能和極高的復(fù)雜性,“部件越復(fù)雜的東西意味著壞的概率就越大。配電系統(tǒng)的控制系統(tǒng)是嵌入式系統(tǒng),非常復(fù)雜,很多功能其實并不是AWS所需要的。”AWS大中華區(qū)產(chǎn)品部計算與存儲總監(jiān)周舸介紹道。

為此,AWS的思路就是降低產(chǎn)品的復(fù)雜性,既符合自身業(yè)務(wù)需求,又提升了運維的簡易性。比如,AWS針對自身情況做了一套控制器系統(tǒng),一旦有問題發(fā)生,可以馬上進行修改,做到盡量不影響到用戶業(yè)務(wù);又如,AWS將數(shù)據(jù)中心UPS電池做小,通過自己的軟件來控制UPS,當(dāng)每個單元設(shè)備出現(xiàn)問題時,其所帶來的麻煩也下降很多。

除了數(shù)據(jù)中心部件級的運維之外,AWS對于整個地理區(qū)域的可用區(qū)都有著全面的保護機制。據(jù)悉,AWS細分地理區(qū)域和可用區(qū)(AZ),這與其他云提供商有很大不同:首先,遠距離的可用區(qū)設(shè)置,可以降低自然災(zāi)難(火災(zāi),水災(zāi)…)帶來的業(yè)務(wù)中斷風(fēng)險;其次,用戶選擇最近站點接入以低延遲訪問AWS云資源;第三,AWS分別管理每個區(qū)域中的運維,將故障分割;

“從最小的零件,到整個可用區(qū)的架構(gòu),AWS是一層層思考如果發(fā)生了故障或者宕機會給用戶帶來哪種影響,并且盡量不影響到用戶的業(yè)務(wù)?!敝荇囱a充道。

定制芯片,讓數(shù)據(jù)中心發(fā)揮極致

在數(shù)據(jù)中心等基礎(chǔ)設(shè)施中,芯片擔(dān)當(dāng)著計算的重任,對于整個數(shù)據(jù)中心的能耗、效率、性能、運維等都有著重要影響。同樣,AWS在針對不同應(yīng)用和需求定制芯片上也在持續(xù)發(fā)力,持續(xù)打造數(shù)據(jù)中心的極致能。

在AWS Nitro方面,已經(jīng)成為數(shù)據(jù)中心物理資源的一個抽象層,AWS云平臺通過AWS Nitro控制器向Amazon EC2添加網(wǎng)絡(luò),存儲和安全資源。今年,Nitro已經(jīng)成功發(fā)展到第四代。

在剛剛推出的Amazon EC2 Mac計算實例中,就是AWS通過在在Mac Mini上安裝了Nitro Controller,沒有Hypervisor的Nitro Controller可以安全快速地連接到Mac Mini。那些為iPhone、iPad、Mac、Apple Watch、Apple TV和Safari開發(fā)應(yīng)用的開發(fā)人員,可以通過使用EC2 Mac實例,在幾秒鐘內(nèi)配置和訪問macOS環(huán)境,根據(jù)需求動態(tài)擴展容量。

token=7b17f053b395a3fb2efad53dd1ea81af&s=DA808F41981C744D40218CDB0100C093.jpg

AWS Graviton是基于ARM的芯片組,今年推出了AWS Graviton 2作為通用處理器;高性價比的AWS Graviton 2不僅可以很好地處理前端工作負載,對于IO密集型工作負載也很友好。

事實上,當(dāng)前芯片處理器已經(jīng)發(fā)展到一個十字路口,最近幾年以來,芯片處理器能力的提升一直不太明顯,芯片頻率提升在減慢,取而代之的是芯片核心數(shù)在不斷提升,處理器走向并行處理的趨勢明顯。

“有三個條件在影響多核處理器的發(fā)展。首先是多核操作系統(tǒng);其次是多核應(yīng)用程序;另外一個就是微服務(wù)。2015年之后,容器、無服務(wù)等微服務(wù)化發(fā)展迅速,微服務(wù)將工作負載切分的很細,這就對計算資源要求很細,特別是和多核架構(gòu)?!敝荇赐嘎丁?/span>

現(xiàn)在傳統(tǒng)處理器因為需要兼容傳統(tǒng)工作負載,所以芯片越做越大、越來越復(fù)雜,增加了很多功能,比如SMT多線程控制組件,SMT雖然可以多個線程共享和共用計算資源,但也會帶來工作負載不平衡、性能容易受影響以及安全隱患等問題?!癎raviton 2這樣的多核處理器就能很好地解決這些問題。”周舸表示。

可再生能源,讓數(shù)據(jù)中心走向環(huán)保

有人統(tǒng)計,目前全球數(shù)據(jù)中心的電力消耗總量已經(jīng)占據(jù)了全球電力使用量的百分之三,到2025年,全球數(shù)據(jù)中心使用的電力總量按現(xiàn)在的電力價格來估算的話,將會超過百億美元,年均復(fù)合增長率將達到6%。隨著全球數(shù)字化腳步的提速,未來對于超大型數(shù)據(jù)中心的需求也上升。AWS作為超大型數(shù)據(jù)中心的運營者,其對于數(shù)據(jù)中心走向環(huán)保的步伐正在持續(xù)加速。

環(huán)保,也是今年P(guān)eter DeSantis在re:Invent大會上演講的一個核心議題。

據(jù)悉,AWS致力于以盡可能環(huán)保的方式運營業(yè)務(wù),并實現(xiàn)全球基礎(chǔ)設(shè)施100%使用可再生能源。AWS正朝著到2025年100%利用可再生能源的道路前進,比其最初的2030年目標(biāo)提前了五年。

token=71314bd5e04388b6c4474cb84a752354&s=7B721FC19C524ACC2ABFE89B03009092.jpg

為此,AWS用多項舉措來提高用水的效率,減少用于冷卻數(shù)據(jù)中心的飲用水的使用。AWS通過評估每個AWS區(qū)域的氣候模式、當(dāng)?shù)厮Y源管理和可用性以及保護飲用水水源的機會來制定用水戰(zhàn)略。

此外,亞馬遜宣布了五個新的公用事業(yè)規(guī)模的太陽能項目,為中國、澳大利亞和美國的全球業(yè)務(wù)提供電力,一共增加615 MW再生能源發(fā)電能力,預(yù)計每年發(fā)電120萬MW。

2020年亞馬遜對可再生能源的總投資項目已達到35個,裝機容量超過4 GW,這也是目前世界上單一企業(yè)在1年內(nèi)對可再生能源的最大的一筆投資。這些新項目將使亞馬遜所擁有的可再生能源的的總裝機容量在2020年達到6.5 GW,并成為有史以來最大的企業(yè)可再生能源采購商。

事實上,AWS對于數(shù)據(jù)中心環(huán)保的投入,不僅僅是對于自身成本的一直控制,更是踐行環(huán)保理念的責(zé)任體現(xiàn)。面向未來,AWS在數(shù)據(jù)中心基礎(chǔ)設(shè)施領(lǐng)域的建設(shè)理念必然會影響到全球更多用戶和同行,為基礎(chǔ)設(shè)施發(fā)展帶來全新的思考。

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于百家號,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多