AWS法蘭克福節(jié)點遭遇重大事件:空氣處理系統(tǒng)故障導致設備關閉、網絡中斷、EC2實例宕機

來源: 網易
作者:云頭條
時間:2021-06-13
16637
云巨頭AWS稱,空氣處理系統(tǒng)故障導致設備關閉、網絡中斷和EC2實例宕機。

EF20DA41-9E14-49BF-816D-FD2087E9DDCD.jpeg

云巨頭AWS稱,空氣處理系統(tǒng)故障導致設備關閉、網絡中斷和EC2實例宕機。

AWS的EU-CENTRAL-1區(qū)域的單單一個可用區(qū)(AZ)近日遭遇了重大事件。

該公司的狀態(tài)頁面顯示,該事件始于6月10日太平洋夏令時下午1點24分,最初導致“一些EC2實例出現了連接問題”。

半小時后,AWS報告“EC2 API出現了API錯誤率和延遲同同增加、實例出現了連接問題……是由那個受影響的可用區(qū)的一部分內環(huán)境溫度升高引起的?!?/p>

到下午2點36分,AWS表示溫度在回落,但網絡連接仍處于斷開狀態(tài)。

但是一小時后,云巨頭給出了以下令人頗為不安的說法:

雖然溫度繼續(xù)回到正常水平,但工程師仍無法進入可用區(qū)受影響的部分。我們認為環(huán)境在接下來的30分鐘內可以安全地重新進入,但現階段正在遠程恢復。

下午4點12分的更新報告稱,出于安全原因,工作人員仍無法進入現場。

下午4點33分,網絡服務恢復正常,AWS表示這應該會促使EC2實例迅速恢復正常。下午5點19分的更新聲明“受影響可用區(qū)內的環(huán)境狀況現已恢復到正常水平”,并告知用戶“絕大多數受影響的EC2實例現已完全恢復,但我們繼續(xù)在處理依然出現性能下降的一些EBS卷。”

Kinesis Data Streams、Kinesis Firehose、Amazon Relational Database Service和AWS CloudFormation也受到了波及。

AWS的最新狀態(tài)更新下結論道:“我們將在后續(xù)帖子中提供有關根本原因的更多詳細信息,但可以確認數據中心內沒有著火?!?/p>

這就留下了一個問題:究竟是什么情況讓數據中心危險到無法進入的地步?

6月11日02點45分的更新。AWS更新事件報告,表明該事件是“控制系統(tǒng)故障引起的,導致受影響可用區(qū)的多個空氣處理系統(tǒng)失靈”。

空氣處理系統(tǒng)負責為數據中心冷卻,所以一旦它們停止運轉,“環(huán)境溫度就開始上升”到不安全的水平,因此AWS服務器網絡設備關閉。

“遺憾的是,由于這個問題影響了幾個冗余網絡交換機,這單單一個可用區(qū)中的大量EC2實例失去了網絡連接,”更新補充道。

“雖然我們的操作人員通常能夠在受到影響之前恢復冷卻功效,但在受影響可用區(qū)的一部分內,滅火系統(tǒng)被激活了?!?/p>

“這個系統(tǒng)激活后,數據中心被疏散開來并密封起來,噴灑一種化學物質,以去除空氣中的氧氣,從而達到滅火效果?!?/p>

AWS的工作人員只好等地方消防部門抵達現場并證明數據中心是安全的。AWS表示,一旦出具符合標準的文件,“需要重新為數據中心注入氧氣,以便工程師可以安全進入設施,恢復受影響的網絡設備和服務器?!?/p>

安全工作條件現已恢復,大部分硬件和服務也已恢復。

但一些設備似乎已受到損壞,正如AWS所說“極少數剩余的實例和卷已受到環(huán)境溫度升高和斷電帶來的不利影響,它們仍未得到解決?!?/p>

這家云巨頭還告知客戶,被激活的滅火系統(tǒng)仍處于禁用狀態(tài)。

立即登錄,閱讀全文
AWS
版權說明:
本文內容來自于網易,本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家