如果不是那么令人討厭,那時候的糟糕時機會很可笑,用于Azure,Office 365和Dynamics的Microsoft的多因素身份驗證(MFA)系統(tǒng)在本月第二次出現(xiàn)故障,該公司在11月19日的14個小時停機中公布了調(diào)查結(jié)果。
Azure Active Directory多因素身份驗證服務(wù)僅在UTC 05:00之前脫機,直到19:00 UTC之前仍不起作用。最初受影響的服務(wù)器是為歐洲和中東地區(qū)以及亞太地區(qū)提供服務(wù)的服務(wù)器;當這些區(qū)域醒來并嘗試進行身份驗證時,服務(wù)器超載并關(guān)閉。微軟試圖將某些身份驗證嘗試重定向到美國服務(wù)器,但這也只是使那些服務(wù)器超載的結(jié)果。
該公司的后續(xù)分析表明,三個單獨的錯誤共同造成了這些問題。11月19日,在過去六天中逐漸部署的代碼更改引發(fā)了一系列失敗。在一定的流量水平以上,新代碼導(dǎo)致前端服務(wù)器和緩存服務(wù)器之間的延遲大大增加。這進而揭示了后端服務(wù)器中的競爭狀況,導(dǎo)致它們一遍又一遍地重置前端服務(wù)器。然后,這揭示了第三個問題:后端服務(wù)器將創(chuàng)建越來越多的進程,最終使自己資源匱乏并使他們無響應(yīng)。
今天的問題仍在調(diào)查中。MFA服務(wù)器自UTC 14:25開始一直超時,導(dǎo)致使用MFA時登錄嘗試失敗。目前,該公司認為,更早的DNS錯誤的解決已導(dǎo)致大量的身份驗證嘗試,實質(zhì)上使MFA系統(tǒng)收到了超出其處理能力的更多請求。