亞馬遜AWS今天再次遭遇故障,這起事件影響了眾多在線服務,包括Twitch、Zoom、PSN、Xbox Live、Doordash、Quickbooks Online和Hulu等。
據(jù)AWS的狀態(tài)頁面顯示,這起故障始于太平洋標準時間上午7點43分左右,影響了US-WEST-1和US-WEST-2這兩個區(qū)域。
據(jù)報道,這起事件已造成了嚴重的互聯(lián)網(wǎng)連接問題,導致一大批在線平臺和網(wǎng)站隨之癱瘓。
AWS的工程師們正在努力搞清楚這次故障背后的根本原因,并表示他們已經采取措施,以恢復互聯(lián)網(wǎng)連接。
AWS狀態(tài)頁面顯示:“我們已查明了通向US-WEST-2區(qū)域的互聯(lián)網(wǎng)連接出問題的根本原因,并已采取措施以恢復連接?!?/p>
“在過去的幾分鐘里,我們看到互聯(lián)網(wǎng)連接有了一定的改善,但繼續(xù)努力實現(xiàn)全面恢復?!?/p>
受這次AWS故障影響的在線服務
而僅僅一周前,另一次大規(guī)模的AWS故障影響了US-EAST-1區(qū)域,該區(qū)域為美國東北部地區(qū)的人員和公司企業(yè)提供連接。
因此,通過Netflix、Roku和Amazon Prime提供的流媒體服務立即受到了影響。Ring設備也隨之癱瘓,無法訪問,據(jù)用戶聲稱他們再也無法連接到自己的攝像頭。
亞馬遜送貨員工們也表示,他們無法訪問內部應用程序,而掃描包裹、訪問送貨路線或查看任何即將到來的時間表都需要使用這些應用程序。
正如AWS后來解釋的那樣,這起事件是“為托管在主AWS網(wǎng)絡中的其中一項AWS服務自動擴展容量的活動”引起的,這“導致連接活動大量激增,從而使內部網(wǎng)絡與主AWS網(wǎng)絡之間的網(wǎng)絡設備不堪重負”。
這些故障并不是獨特的事件,因為自2011年以來此前已發(fā)生過多起另外的類似事件,包括2020年11月影響了US-EAST-1區(qū)域的大規(guī)模故障事件。
當時,在亞馬遜用于實時處理流數(shù)據(jù)的Kinesis服務開始遇到問題后,數(shù)量眾多的網(wǎng)站和在線平臺紛紛癱瘓。
而在之前一年的2019年9月,AWS在北弗吉尼亞州的US-EAST-1數(shù)據(jù)中心遭遇了斷電,因而導致沒有可用備份來恢復文件的所有亞馬遜客戶的數(shù)據(jù)丟失。
太平洋標準時間上午8點10分:AWS表示影響US-WEST-1和US-WEST-2這兩個區(qū)域的故障背后的問題已得到解決。
我們已經解決了影響通向US-WEST-1區(qū)域的互聯(lián)網(wǎng)連接的問題。該區(qū)域內部的連接并未受到該事件的影響。問題已得到解決,服務運行正常。
太平洋標準時間中午12點14分:上午7點14分到7點59分之間,客戶們遇到了網(wǎng)絡數(shù)據(jù)包丟失增加的情況,這影響了通向一部分互聯(lián)網(wǎng)目的地的連接。AWS區(qū)域內部的流量、AWS區(qū)域之間的流量以及通向互聯(lián)網(wǎng)上其他目的地的流量則并未受到影響。這個問題是由AWS主干網(wǎng)(AWS Backbone)的一部分與一小批互聯(lián)網(wǎng)服務提供商之間的網(wǎng)絡擁塞引起的,網(wǎng)絡擁塞是由AWS流量工程觸發(fā)的,這是為了應對我們網(wǎng)絡外面的擁塞而執(zhí)行的。該流量工程錯誤地將比預期更多的流量轉移到了AWS主干網(wǎng)的一部分,結果影響了通向一部分互聯(lián)網(wǎng)目的地的連接。問題已得到解決,我們預計不會再次發(fā)生。