微軟現(xiàn)在讓Azure用戶可以了解虛擬機發(fā)生原因的根本問題,借由使用新的根本原因分析(Root Cause Analysis,RCA)引擎,解析Azure平臺設備和服務的遙測資料,經過關聯(lián)和歸因分析之后,對不同故障狀況給出根本原因解釋。
現(xiàn)有的Azure資源健康狀態(tài)總覽功能,可以協(xié)助用戶診斷影響Azure服務的問題,該功能會提供當前和過去的運行狀況,顯示每個人信息源無法使用的時間,但是無法提供發(fā)生問題的潛在原因,而現(xiàn)在微軟強化Azure資源健康狀態(tài)總覽功能,以提供用戶更多有關于資源運行的狀況,以及導致問題發(fā)生的背景信息。
現(xiàn)在當虛擬機發(fā)生可用性問題時,用戶除了可以快速獲得通知之外,當自動化根本原因分析(RCA)確定導致虛擬機出現(xiàn)故障的Azure平臺組件,用戶便可查看調查細節(jié)。RCA引擎的原理和背后技術核心,源自于Azure資料總管(ADX),這是一個大規(guī)模日志遙測分析系統(tǒng),經優(yōu)化所提供的資料服務,Azure資料總管能夠解析Azure平臺設備與服務的數(shù)TB日志遙測資料,并且經過綜合分析后,給出故障的詳細信息。
自動化根本原因分析有幾個階段,第一階段是定義分析觸發(fā)事件,RCA需要確認虛擬機是不是在非預期的情況下重新啟動,因此觸發(fā)事件便是從啟動狀態(tài)變成關閉狀態(tài)的轉換,微軟解釋,在大多數(shù)情況下,利用平臺遙測資料來識別這些轉換很簡單,但是在部分類型的基礎設施故障時,便會很困難,而且平臺遙測可能會因為設備故障或是斷電而失效。為了處理這類型的故障,微軟必須使用其他類型的技術,像是資料丟失關注,來作為虛擬機運行狀態(tài)轉換的可能指標。
在確認觸發(fā)事件之后,接下來便要進行相關性分析,Azure平臺上的系統(tǒng),包括主機或是存儲等各部分,都有各自的遙測饋送,RCA引擎需要對這些遙測資料進行解析,并找出與虛擬機觸發(fā)事件的關聯(lián),通過了解可能導致虛擬機故障的底層系統(tǒng)相依關系圖,將所有相依系統(tǒng)的健康狀態(tài)集成在一起,過濾時間相近的虛擬機轉換事件,來探索相關性。
在相關性分析結束后,輸出會是一個人信息料集,來表示虛擬機停機時間相關的平臺遙測資料,以提供判斷虛擬機故障的可能原因。RCA引擎會根據這個人信息料集,應用歸因規(guī)則來解釋信息,并將其轉換成為用戶能夠理解的消息。
最后一個階段則是將根本原因發(fā)布到Azure資源健康狀態(tài)總覽,供用戶查看故障的進一步信息,微軟提到,因為信息流可能會因為各種資料延遲,而推延出現(xiàn)的時間,所以在這個過程可能會偶爾更新分析信息,以反映更具體更細節(jié)的根本原因。