AWS法蘭克福節(jié)點遭遇重大事件:空氣處理系統(tǒng)故障導致設備關閉、網(wǎng)絡中斷、EC2實例宕機

來源: 網(wǎng)易
作者:云頭條
時間:2021-06-13
16634
云巨頭AWS稱,空氣處理系統(tǒng)故障導致設備關閉、網(wǎng)絡中斷和EC2實例宕機。

EF20DA41-9E14-49BF-816D-FD2087E9DDCD.jpeg

云巨頭AWS稱,空氣處理系統(tǒng)故障導致設備關閉、網(wǎng)絡中斷和EC2實例宕機。

AWS的EU-CENTRAL-1區(qū)域的單單一個可用區(qū)(AZ)近日遭遇了重大事件。

該公司的狀態(tài)頁面顯示,該事件始于6月10日太平洋夏令時下午1點24分,最初導致“一些EC2實例出現(xiàn)了連接問題”。

半小時后,AWS報告“EC2 API出現(xiàn)了API錯誤率和延遲同同增加、實例出現(xiàn)了連接問題……是由那個受影響的可用區(qū)的一部分內(nèi)環(huán)境溫度升高引起的。”

到下午2點36分,AWS表示溫度在回落,但網(wǎng)絡連接仍處于斷開狀態(tài)。

但是一小時后,云巨頭給出了以下令人頗為不安的說法:

雖然溫度繼續(xù)回到正常水平,但工程師仍無法進入可用區(qū)受影響的部分。我們認為環(huán)境在接下來的30分鐘內(nèi)可以安全地重新進入,但現(xiàn)階段正在遠程恢復。

下午4點12分的更新報告稱,出于安全原因,工作人員仍無法進入現(xiàn)場。

下午4點33分,網(wǎng)絡服務恢復正常,AWS表示這應該會促使EC2實例迅速恢復正常。下午5點19分的更新聲明“受影響可用區(qū)內(nèi)的環(huán)境狀況現(xiàn)已恢復到正常水平”,并告知用戶“絕大多數(shù)受影響的EC2實例現(xiàn)已完全恢復,但我們繼續(xù)在處理依然出現(xiàn)性能下降的一些EBS卷?!?/p>

Kinesis Data Streams、Kinesis Firehose、Amazon Relational Database Service和AWS CloudFormation也受到了波及。

AWS的最新狀態(tài)更新下結論道:“我們將在后續(xù)帖子中提供有關根本原因的更多詳細信息,但可以確認數(shù)據(jù)中心內(nèi)沒有著火。”

這就留下了一個問題:究竟是什么情況讓數(shù)據(jù)中心危險到無法進入的地步?

6月11日02點45分的更新。AWS更新事件報告,表明該事件是“控制系統(tǒng)故障引起的,導致受影響可用區(qū)的多個空氣處理系統(tǒng)失靈”。

空氣處理系統(tǒng)負責為數(shù)據(jù)中心冷卻,所以一旦它們停止運轉,“環(huán)境溫度就開始上升”到不安全的水平,因此AWS服務器網(wǎng)絡設備關閉。

“遺憾的是,由于這個問題影響了幾個冗余網(wǎng)絡交換機,這單單一個可用區(qū)中的大量EC2實例失去了網(wǎng)絡連接,”更新補充道。

“雖然我們的操作人員通常能夠在受到影響之前恢復冷卻功效,但在受影響可用區(qū)的一部分內(nèi),滅火系統(tǒng)被激活了?!?/p>

“這個系統(tǒng)激活后,數(shù)據(jù)中心被疏散開來并密封起來,噴灑一種化學物質(zhì),以去除空氣中的氧氣,從而達到滅火效果?!?/p>

AWS的工作人員只好等地方消防部門抵達現(xiàn)場并證明數(shù)據(jù)中心是安全的。AWS表示,一旦出具符合標準的文件,“需要重新為數(shù)據(jù)中心注入氧氣,以便工程師可以安全進入設施,恢復受影響的網(wǎng)絡設備和服務器。”

安全工作條件現(xiàn)已恢復,大部分硬件和服務也已恢復。

但一些設備似乎已受到損壞,正如AWS所說“極少數(shù)剩余的實例和卷已受到環(huán)境溫度升高和斷電帶來的不利影響,它們?nèi)晕吹玫浇鉀Q?!?/p>

這家云巨頭還告知客戶,被激活的滅火系統(tǒng)仍處于禁用狀態(tài)。

立即登錄,閱讀全文
AWS
版權說明:
本文內(nèi)容來自于網(wǎng)易,本站不擁有所有權,不承擔相關法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家