微軟現(xiàn)在讓Azure用戶可以了解虛擬機(jī)發(fā)生原因的根本問(wèn)題,借由使用新的根本原因分析(Root Cause Analysis,RCA)引擎,解析Azure平臺(tái)設(shè)備和服務(wù)的遙測(cè)資料,經(jīng)過(guò)關(guān)聯(lián)和歸因分析之后,對(duì)不同故障狀況給出根本原因解釋。
現(xiàn)有的Azure資源健康狀態(tài)總覽功能,可以協(xié)助用戶診斷影響Azure服務(wù)的問(wèn)題,該功能會(huì)提供當(dāng)前和過(guò)去的運(yùn)行狀況,顯示每個(gè)人信息源無(wú)法使用的時(shí)間,但是無(wú)法提供發(fā)生問(wèn)題的潛在原因,而現(xiàn)在微軟強(qiáng)化Azure資源健康狀態(tài)總覽功能,以提供用戶更多有關(guān)于資源運(yùn)行的狀況,以及導(dǎo)致問(wèn)題發(fā)生的背景信息。
現(xiàn)在當(dāng)虛擬機(jī)發(fā)生可用性問(wèn)題時(shí),用戶除了可以快速獲得通知之外,當(dāng)自動(dòng)化根本原因分析(RCA)確定導(dǎo)致虛擬機(jī)出現(xiàn)故障的Azure平臺(tái)組件,用戶便可查看調(diào)查細(xì)節(jié)。RCA引擎的原理和背后技術(shù)核心,源自于Azure資料總管(ADX),這是一個(gè)大規(guī)模日志遙測(cè)分析系統(tǒng),經(jīng)優(yōu)化所提供的資料服務(wù),Azure資料總管能夠解析Azure平臺(tái)設(shè)備與服務(wù)的數(shù)TB日志遙測(cè)資料,并且經(jīng)過(guò)綜合分析后,給出故障的詳細(xì)信息。
自動(dòng)化根本原因分析有幾個(gè)階段,第一階段是定義分析觸發(fā)事件,RCA需要確認(rèn)虛擬機(jī)是不是在非預(yù)期的情況下重新啟動(dòng),因此觸發(fā)事件便是從啟動(dòng)狀態(tài)變成關(guān)閉狀態(tài)的轉(zhuǎn)換,微軟解釋,在大多數(shù)情況下,利用平臺(tái)遙測(cè)資料來(lái)識(shí)別這些轉(zhuǎn)換很簡(jiǎn)單,但是在部分類型的基礎(chǔ)設(shè)施故障時(shí),便會(huì)很困難,而且平臺(tái)遙測(cè)可能會(huì)因?yàn)樵O(shè)備故障或是斷電而失效。為了處理這類型的故障,微軟必須使用其他類型的技術(shù),像是資料丟失關(guān)注,來(lái)作為虛擬機(jī)運(yùn)行狀態(tài)轉(zhuǎn)換的可能指標(biāo)。
在確認(rèn)觸發(fā)事件之后,接下來(lái)便要進(jìn)行相關(guān)性分析,Azure平臺(tái)上的系統(tǒng),包括主機(jī)或是存儲(chǔ)等各部分,都有各自的遙測(cè)饋送,RCA引擎需要對(duì)這些遙測(cè)資料進(jìn)行解析,并找出與虛擬機(jī)觸發(fā)事件的關(guān)聯(lián),通過(guò)了解可能導(dǎo)致虛擬機(jī)故障的底層系統(tǒng)相依關(guān)系圖,將所有相依系統(tǒng)的健康狀態(tài)集成在一起,過(guò)濾時(shí)間相近的虛擬機(jī)轉(zhuǎn)換事件,來(lái)探索相關(guān)性。
在相關(guān)性分析結(jié)束后,輸出會(huì)是一個(gè)人信息料集,來(lái)表示虛擬機(jī)停機(jī)時(shí)間相關(guān)的平臺(tái)遙測(cè)資料,以提供判斷虛擬機(jī)故障的可能原因。RCA引擎會(huì)根據(jù)這個(gè)人信息料集,應(yīng)用歸因規(guī)則來(lái)解釋信息,并將其轉(zhuǎn)換成為用戶能夠理解的消息。
最后一個(gè)階段則是將根本原因發(fā)布到Azure資源健康狀態(tài)總覽,供用戶查看故障的進(jìn)一步信息,微軟提到,因?yàn)樾畔⒘骺赡軙?huì)因?yàn)楦鞣N資料延遲,而推延出現(xiàn)的時(shí)間,所以在這個(gè)過(guò)程可能會(huì)偶爾更新分析信息,以反映更具體更細(xì)節(jié)的根本原因。