云巨頭AWS稱,空氣處理系統(tǒng)故障導(dǎo)致設(shè)備關(guān)閉、網(wǎng)絡(luò)中斷和EC2實例宕機。
AWS的EU-CENTRAL-1區(qū)域的單單一個可用區(qū)(AZ)近日遭遇了重大事件。
該公司的狀態(tài)頁面顯示,該事件始于6月10日太平洋夏令時下午1點24分,最初導(dǎo)致“一些EC2實例出現(xiàn)了連接問題”。
半小時后,AWS報告“EC2 API出現(xiàn)了API錯誤率和延遲同同增加、實例出現(xiàn)了連接問題……是由那個受影響的可用區(qū)的一部分內(nèi)環(huán)境溫度升高引起的?!?/p>
到下午2點36分,AWS表示溫度在回落,但網(wǎng)絡(luò)連接仍處于斷開狀態(tài)。
但是一小時后,云巨頭給出了以下令人頗為不安的說法:
雖然溫度繼續(xù)回到正常水平,但工程師仍無法進入可用區(qū)受影響的部分。我們認為環(huán)境在接下來的30分鐘內(nèi)可以安全地重新進入,但現(xiàn)階段正在遠程恢復(fù)。
下午4點12分的更新報告稱,出于安全原因,工作人員仍無法進入現(xiàn)場。
下午4點33分,網(wǎng)絡(luò)服務(wù)恢復(fù)正常,AWS表示這應(yīng)該會促使EC2實例迅速恢復(fù)正常。下午5點19分的更新聲明“受影響可用區(qū)內(nèi)的環(huán)境狀況現(xiàn)已恢復(fù)到正常水平”,并告知用戶“絕大多數(shù)受影響的EC2實例現(xiàn)已完全恢復(fù),但我們繼續(xù)在處理依然出現(xiàn)性能下降的一些EBS卷?!?/p>
Kinesis Data Streams、Kinesis Firehose、Amazon Relational Database Service和AWS CloudFormation也受到了波及。
AWS的最新狀態(tài)更新下結(jié)論道:“我們將在后續(xù)帖子中提供有關(guān)根本原因的更多詳細信息,但可以確認數(shù)據(jù)中心內(nèi)沒有著火?!?/p>
這就留下了一個問題:究竟是什么情況讓數(shù)據(jù)中心危險到無法進入的地步?
6月11日02點45分的更新。AWS更新事件報告,表明該事件是“控制系統(tǒng)故障引起的,導(dǎo)致受影響可用區(qū)的多個空氣處理系統(tǒng)失靈”。
空氣處理系統(tǒng)負責為數(shù)據(jù)中心冷卻,所以一旦它們停止運轉(zhuǎn),“環(huán)境溫度就開始上升”到不安全的水平,因此AWS服務(wù)器網(wǎng)絡(luò)設(shè)備關(guān)閉。
“遺憾的是,由于這個問題影響了幾個冗余網(wǎng)絡(luò)交換機,這單單一個可用區(qū)中的大量EC2實例失去了網(wǎng)絡(luò)連接,”更新補充道。
“雖然我們的操作人員通常能夠在受到影響之前恢復(fù)冷卻功效,但在受影響可用區(qū)的一部分內(nèi),滅火系統(tǒng)被激活了?!?/p>
“這個系統(tǒng)激活后,數(shù)據(jù)中心被疏散開來并密封起來,噴灑一種化學物質(zhì),以去除空氣中的氧氣,從而達到滅火效果。”
AWS的工作人員只好等地方消防部門抵達現(xiàn)場并證明數(shù)據(jù)中心是安全的。AWS表示,一旦出具符合標準的文件,“需要重新為數(shù)據(jù)中心注入氧氣,以便工程師可以安全進入設(shè)施,恢復(fù)受影響的網(wǎng)絡(luò)設(shè)備和服務(wù)器?!?/p>
安全工作條件現(xiàn)已恢復(fù),大部分硬件和服務(wù)也已恢復(fù)。
但一些設(shè)備似乎已受到損壞,正如AWS所說“極少數(shù)剩余的實例和卷已受到環(huán)境溫度升高和斷電帶來的不利影響,它們?nèi)晕吹玫浇鉀Q?!?/p>
這家云巨頭還告知客戶,被激活的滅火系統(tǒng)仍處于禁用狀態(tài)。