別人的宕機時間是AWS的七倍,AWS做了什么?

來源: 百家號
作者:云體驗師
時間:2020-12-31
17545
AWS坐擁全球近一半的云市場份額,理論上規(guī)模越大越容易出錯才對,AWS為了減少宕機時間都做了什么呢?

北京時間2020年12月14日晚間,由于內(nèi)部技術故障導致大面積宕機,谷歌多項服務均無法提供服務,類似的宕機新聞時有發(fā)生,每次的主角都可能都不一樣,到底誰的宕機次數(shù)和宕機時間更少呢?

市面上有一些公開的監(jiān)測數(shù)據(jù),比如來自downdetector.com和cloudharmony.com的數(shù)據(jù),也有廠商比較自豪說自己宕機時間比同行老伙計時間短的,比如在2018年,亞馬遜云服務(AWS)表示第二大云計算公司的宕機時間是AWS的7倍。

AWS坐擁全球近一半的云市場份額,理論上規(guī)模越大越容易出錯才對,AWS為了減少宕機時間都做了什么呢?

在亞馬遜re:Invent大會,AWS全球基礎架構和客戶支持高級副總裁Peter DeSantis介紹了基礎設施層面上方方面面的創(chuàng)新,包括如何減少宕機,如何降本增效等等。

在減少宕機時間,在提升服務連續(xù)性方面,AWS有挺多的有意義的做法,AWS大中華區(qū)產(chǎn)品部計算與存儲總監(jiān)周舸向中國媒體介紹了其中幾點。

AWS數(shù)據(jù)中心電力冗余設計簡介

c75c10385343fbf217f491075d06058764388fbe.png

發(fā)電機組

從電力供應開始說起,周舸介紹了柴油發(fā)電機,介紹了配電室(E-house),UPS備用電源等方面。

cf1b9d16fdfaaf51ba103ee1622c5be9f11f7a79.png

E-house

令人印象深刻的是,為了減少可能發(fā)生的故障,AWS在采用現(xiàn)有商用方案(一般是嵌入式系統(tǒng))的基礎上,舍棄了許多原有的東西,自己設計了控制電路的代碼。

AWS對基礎架構的控制能力可見一斑。

38dbb6fd5266d0165afd7a947d531b0034fa3522.png

原裝設備控制電路存在的問題

在AWS看來,這些控制軟件有可能有Bug,如果Bug發(fā)生,廠商無法在短時間內(nèi)完成修復,而如果這些軟件本身就是自己寫的,那么就可以很快進行修復。這種對于現(xiàn)有服務方案的“不信任”貫穿著AWS架構設計的方方面面。

7aec54e736d12f2ef6bde101a5ba1a6584356893.png

AWS CTO Werner Vogels曾說過,”Everything fails,all the time”,也就是說,所有東西都可能會壞掉,既然無法避免會壞掉,那就坦然接受,但一定要盡量減少壞掉造成的影響,要能預測什么時候會壞、怎么壞的,提前做出防范和應對。

比如,為了保障電力供應,AWS會在有外部電網(wǎng)供電和內(nèi)部發(fā)電機組的基礎上,再加一組發(fā)電機,采用冗余的供電方式,冗余設計是貫穿整體架構設計的方方面面,但這會大大提升復雜度,越復雜就越危險。

377adab44aed2e73d1034cfa6f796e8c85d6fafb.png

在2020 re:Invent大會上,Peter DeSantis張貼了這樣一張圖,橫軸表示系統(tǒng)復雜度,縱軸表示故障造成的傷害(爆炸半徑),原本的Switch Gear(配電控制系統(tǒng))和UPS系統(tǒng)處在較為危險的位置。

ae51f3deb48f8c54de6c6294d251e2f2e1fe7f4a.jpg

在Switch Gear(配電控制系統(tǒng))系統(tǒng)的優(yōu)化改造中,AWS通過自己寫軟件控制系統(tǒng),刪除一些沒用的、添加部分對AWS有用的功能后,降低了系統(tǒng)復雜度,提升了系統(tǒng)的可靠性和安全性。

38dbb6fd5266d01675820c037c531b0034fa3586.png

使用Rack Level小電池塊的UPS

在UPS系統(tǒng)改造中,除了軟件層的改進,還使用小容量(Rack Level電池)的電池,而不是以前超大容量的電池,從而降低電池爆炸造成的傷害,從而遠離了爆炸半徑。

bd3eb13533fa828b24cedb7c11678e33950a5ac4.png

AWS數(shù)據(jù)中心級別的高可用設計簡介

2000年左右,那是一個還沒有AWS的時代,Amazon在美國西雅圖有一個數(shù)據(jù)中心,隨著業(yè)務規(guī)模的擴大,亞馬遜開始意識到海嘯和地震的潛在風險,不能把所有東西都放這里,于是就想在沒有地震海嘯威脅的美國東海岸建一個數(shù)據(jù)中心。

11385343fbf2b211f21af93721f8aa3f0cd78e17.png

東西海岸70ms的超高延遲是絕對不能接受的

f7246b600c33874449caea16b87716fed62aa0ca.png

各種自然災害的影響范圍與距離造成的延遲

兩個數(shù)據(jù)中心放的太近,可能遭受同一個自然災害的侵襲,如果離得太遠,延遲會帶來數(shù)據(jù)同步的問題也同樣不可接受,美國東西海岸的距離就會造成這一問題。所以,數(shù)據(jù)中心之間需要保持一定的安全距離,而且要保證一毫秒以內(nèi)的延遲。

79f0f736afc3793190cf170107bc784242a911f7.png

類似的,AWS強調(diào)多AZ(Avaibable Zone)與多機房的概念不一樣,AWS每個Region有至少三個AZ,AWS認為多個AZ相互間要有一定的安全距離,以此來降低外部環(huán)境同時對多個AZ造成影響,來提升服務的可用性。

從Region的角度看,AWS為了減少Region間可能造成的干擾,設計原則上是將各個Region獨立運作,一個Region出的問題不會傳遞到別的Region,在Region的級別提供冗余。

AWS供應鏈保障

2020年是黑天鵝滿天飛的一年,突如其來的疫情,急劇增長的在線業(yè)務量,逼著所有云廠商在加班加點忙著擴容資源,AWS也不例外,就AWS的規(guī)模來猜測,擴容規(guī)模要遠大于大部分云廠商。

8b82b9014a90f603ada4c673d06a7c1cb051ed6b.jpg

2015年,AWS供應鏈概況

為了保障擴容的順利進行,AWS在供應鏈采購管理上采取了多元化策略,供應商的數(shù)量,供應商覆蓋的國家和地區(qū)在數(shù)量上有了很大提升。如今,AWS的供應鏈系統(tǒng)覆蓋7個國家,86家供應商,以此來暴漲供應鏈的穩(wěn)定。

a1ec08fa513d2697a7d2467cbf837dfc4316d80b.jpg

2020年,AWS供應鏈概況

在疫情在全球爆發(fā)的2020年,多元化管理策略確實挺有價值,疫情的不確定性給供應鏈帶來很大挑戰(zhàn),許多國家的生產(chǎn)環(huán)節(jié)和清關效率都出了很大問題,對此,周舸表示深有體會。

寫在最后

在可用性方面,公有云作為公開可見的服務,更容易受到公眾關注,造成公有云更容易出故障的印象。

拋開客觀感受不說,由于公有云作為一種服務,而不是一個個on-premise產(chǎn)品盒子,要考慮的內(nèi)容更多一些,比如供電,比如網(wǎng)絡,比如運營能力等,確實非常考驗云廠商的綜合實力,需要有數(shù)不清的技術創(chuàng)新來打造更高的可用性和業(yè)務連續(xù)性。

隨著一步步迭代和發(fā)展,技術只會更成熟,運營經(jīng)驗會更豐富。

立即登錄,閱讀全文
版權說明:
本文內(nèi)容來自于百家號,本站不擁有所有權,不承擔相關法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家