通過(guò)人工智能提高Azure服務(wù)質(zhì)量:AIOps

來(lái)源:Microsoft Azure
作者:Mark Russinovich
時(shí)間:2020-07-30
3790
AIOps已開始通過(guò)大規(guī)模改善服務(wù)質(zhì)量和客戶體驗(yàn),同時(shí)通過(guò)智能工具提高工程師的生產(chǎn)力,推動(dòng)持續(xù)的成本優(yōu)化并最終提高平臺(tái)本身的可靠性,性能和效率,來(lái)轉(zhuǎn)變?cè)茦I(yè)務(wù)。

“在大數(shù)據(jù)時(shí)代,從以Azure規(guī)模運(yùn)行的云服務(wù)中收集的見解迅速超出了人類的注意力范圍。根據(jù)收集到的大量數(shù)據(jù),確定正確的步驟以維持最高的服務(wù)質(zhì)量至關(guān)重要。在將此應(yīng)用到Azure時(shí),我們?cè)O(shè)想將AI注入我們的云平臺(tái)和DevOps流程,成為AIOps,以使Azure平臺(tái)變得更具自適應(yīng)性,彈性和效率。AIOps還將支持我們的工程師更有效,及時(shí)地采取正確的措施,以繼續(xù)提高服務(wù)質(zhì)量并令我們的客戶和合作伙伴滿意。這篇文章繼續(xù)了我們的“推進(jìn)可靠性”系列重點(diǎn)活動(dòng)正在不斷改善Azure平臺(tái)的可靠性。接下來(lái)的帖子是由負(fù)責(zé)這些工作的項(xiàng)目經(jīng)理Jian Zhang撰寫的,她分享了我們對(duì)AIOps的愿景,并重點(diǎn)介紹了AI注入領(lǐng)域,這些領(lǐng)域已經(jīng)成為我們端到端云服務(wù)管理的一部分。”—Azure首席技術(shù)官M(fèi)ark Russinovich

這篇文章包括首席數(shù)據(jù)科學(xué)家經(jīng)理Yingnong Dang和Partner Group軟件工程經(jīng)理Murali Chintalapati的貢獻(xiàn)。

正如Mark在啟動(dòng)“提高可靠性”時(shí)提到的那樣博客系列,在Azure規(guī)模上構(gòu)建和運(yùn)行全球云基礎(chǔ)架構(gòu)是一項(xiàng)復(fù)雜的任務(wù),包含數(shù)百個(gè)不斷發(fā)展的服務(wù)組件,這些組件跨越160多個(gè)數(shù)據(jù)中心,遍及60多個(gè)區(qū)域。為了應(yīng)對(duì)這一挑戰(zhàn),我們創(chuàng)建了一個(gè)AIOps團(tuán)隊(duì)來(lái)與Azure工程團(tuán)隊(duì)進(jìn)行廣泛的合作,并與Microsoft Research合作開發(fā)AI解決方案,以使云服務(wù)管理比以往任何時(shí)候都更加高效和可靠。我們將分享我們對(duì)將AI注入云平臺(tái)和DevOps流程的重要性的看法。Gartner提到了與AIOps類似的東西(發(fā)音為“AI Ops”),這已成為我們內(nèi)部使用的通用術(shù)語(yǔ),盡管范圍更大。今天的帖子僅僅是個(gè)開始,

為什么要使用AIOps?

云服務(wù)有兩個(gè)獨(dú)特的特征:

云平臺(tái)和系統(tǒng)的規(guī)模和復(fù)雜性不斷增加

客戶,合作伙伴及其工作負(fù)載的不斷變化的需求

為了在不斷變化的狀態(tài)下構(gòu)建和運(yùn)行可靠的云服務(wù),并盡可能高效地進(jìn)行操作,我們的云工程師(包括數(shù)千名Azure開發(fā)人員,運(yùn)營(yíng)工程師,客戶支持工程師和程序經(jīng)理)嚴(yán)重依賴數(shù)據(jù)做出決定并采取行動(dòng)。此外,許多決策和行動(dòng)需要作為我們的云服務(wù)或DevOps流程的組成部分自動(dòng)執(zhí)行。簡(jiǎn)化從數(shù)據(jù)到?jīng)Q策再到行動(dòng)的路徑包括識(shí)別數(shù)據(jù)中的模式,進(jìn)行推理并基于歷史數(shù)據(jù)進(jìn)行預(yù)測(cè),然后根據(jù)從所有基礎(chǔ)數(shù)據(jù)中得出的見解建議甚至采取行動(dòng)。

將AI注入云平臺(tái)和DevOps–AI以客戶,工程和服務(wù)為中心。

ia_3700000003.png

圖1.將AI注入云平臺(tái)和DevOps。

AIOps愿景

AIOps已開始通過(guò)大規(guī)模改善服務(wù)質(zhì)量和客戶體驗(yàn),同時(shí)通過(guò)智能工具提高工程師的生產(chǎn)力,推動(dòng)持續(xù)的成本優(yōu)化并最終提高平臺(tái)本身的可靠性,性能和效率,來(lái)轉(zhuǎn)變?cè)茦I(yè)務(wù)。當(dāng)我們投資于改進(jìn)AIOps和相關(guān)技術(shù)時(shí),我們看到這最終會(huì)以幾種方式提供價(jià)值:

更高的服務(wù)質(zhì)量和效率:云服務(wù)將具有內(nèi)置的自我監(jiān)視,自適應(yīng)和自我修復(fù)功能,而只需很少的人工干預(yù)。由此類智能提供支持的平臺(tái)級(jí)自動(dòng)化將提高服務(wù)質(zhì)量(包括可靠性,可用性和性能),并提高服務(wù)效率,以提供最佳的客戶體驗(yàn)。

更高的DevOps生產(chǎn)率:憑借AI和ML的自動(dòng)化功能,工程師從研究重復(fù)問題,手動(dòng)操作和支持其服務(wù)的工作中解脫出來(lái),而可以專注于解決新問題,構(gòu)建新功能以及對(duì)工作有直接影響的工作客戶和合作伙伴的經(jīng)驗(yàn)。實(shí)際上,AIOps使開發(fā)人員和工程師具有洞察力,從而避免查看原始數(shù)據(jù),從而提高了工程師的生產(chǎn)率。

更高的客戶滿意度:AIOps解決方案在使客戶盡可能輕松地使用,維護(hù)和排除我們的云服務(wù)之上的工作負(fù)載方面發(fā)揮著至關(guān)重要的作用。我們努力使用AIOps更好地了解客戶需求,在某些情況下,確定潛在的痛點(diǎn)并根據(jù)需要主動(dòng)伸出援手。數(shù)據(jù)驅(qū)動(dòng)的客戶工作負(fù)載行為洞察力可能會(huì)在Microsoft或客戶需要采取措施以防止出現(xiàn)問題或應(yīng)用變通辦法時(shí)進(jìn)行標(biāo)記。最終,目標(biāo)是通過(guò)快速識(shí)別,緩解和解決問題來(lái)提高滿意度。

我的同事Marcus Fontoura,Murali Chintalapati和Yingnong Dang在AAAI-20云智能研討會(huì)上的第34屆AI大會(huì)上分享了微軟在此領(lǐng)域的愿景,投資和示例成就,以及第三十四屆AAAI-20云智能研討會(huì)AAAI人工智能會(huì)議。愿景是由Microsoft AIOps委員會(huì)跨云服務(wù)產(chǎn)品組(包括Azure,Microsoft 365,Bing和LinkedIn,以及Microsoft Research(MSR))創(chuàng)建的。在主題演講中,我們共享了一些關(guān)鍵領(lǐng)域,在這些領(lǐng)域中,AIOps可以轉(zhuǎn)變?yōu)闃?gòu)建和運(yùn)行云系統(tǒng),如下圖所示。

ia_3700000004.png

圖2.用于云的人工智能:人工智能和人工智能服務(wù)平臺(tái)。

人工智能

超越我們的愿景,我們希望首先簡(jiǎn)要概述構(gòu)建AIOps解決方案的一般方法。這個(gè)領(lǐng)域中的解決方案總是從數(shù)據(jù)(系統(tǒng),客戶和流程的度量)開始,因?yàn)槿魏蜛IOps解決方案的關(guān)鍵都是提煉關(guān)于系統(tǒng)行為,客戶行為以及DevOps工件和流程的見解。洞察力可能包括識(shí)別現(xiàn)在正在發(fā)生的問題(檢測(cè)),為什么會(huì)發(fā)生(診斷),將來(lái)會(huì)發(fā)生什么(預(yù)測(cè))以及如何改進(jìn)(優(yōu)化,調(diào)整和緩解)。此類見解應(yīng)始終與業(yè)務(wù)指標(biāo)(客戶滿意度,系統(tǒng)質(zhì)量和DevOps生產(chǎn)力)相關(guān)聯(lián),并根據(jù)業(yè)務(wù)影響確定的優(yōu)先級(jí)來(lái)推動(dòng)行動(dòng)。這些動(dòng)作也將反饋到系統(tǒng)和過(guò)程中。此反饋可以是完全自動(dòng)化的(注入到系統(tǒng)中),也可以是人為循環(huán)的(注入到DevOps流程中)。這種總體方法指導(dǎo)我們?cè)谌齻€(gè)方面構(gòu)建AIOps解決方案。

ia_3700000005.png

圖3.AIOps方法:數(shù)據(jù),見解和行動(dòng)。

系統(tǒng)人工智能

今天,我們將介紹幾種已經(jīng)使用的AIOps解決方案,并在后臺(tái)支持Azure。目標(biāo)是使系統(tǒng)管理自動(dòng)化以減少人為干預(yù)。結(jié)果,這有助于降低運(yùn)營(yíng)成本,提高系統(tǒng)效率并提高客戶滿意度。這些解決方案已經(jīng)為Azure平臺(tái)的可用性改進(jìn)做出了重要貢獻(xiàn),尤其是對(duì)于Azure IaaS虛擬機(jī)(VM)。AIOps解決方案通過(guò)多種方式做出了貢獻(xiàn),包括通過(guò)硬件故障預(yù)測(cè)以及實(shí)時(shí)遷移和Project Tardigrade等主動(dòng)行動(dòng)保護(hù)客戶的工作負(fù)載免受主機(jī)故障,并預(yù)先配置VM以縮短VM創(chuàng)建時(shí)間。

當(dāng)然,工程技術(shù)的改進(jìn)和持續(xù)的系統(tǒng)創(chuàng)新在平臺(tái)可靠性的不斷提高中也起著重要作用。

硬件故障預(yù)測(cè)是為了保護(hù)云客戶免受硬件故障引起的中斷。早在2018年,我們就分享了通過(guò)預(yù)測(cè)性ML改進(jìn)Azure虛擬機(jī)彈性和實(shí)時(shí)遷移的故事。MicrosoftResearch和Azure為Azure Compute構(gòu)建了磁盤故障預(yù)測(cè)解決方案,觸發(fā)了客戶VM從預(yù)測(cè)到故障節(jié)點(diǎn)的實(shí)時(shí)遷移到虛擬機(jī)。健康的節(jié)點(diǎn)。我們還將預(yù)測(cè)范圍擴(kuò)展到其他類型的硬件問題,包括內(nèi)存和網(wǎng)絡(luò)路由器故障。這使我們能夠執(zhí)行預(yù)測(cè)性維護(hù),以提高可用性。

通過(guò)創(chuàng)建預(yù)配置的VM,Azure中的預(yù)配置服務(wù)為VM部署帶來(lái)了可靠性和延遲優(yōu)勢(shì)。預(yù)先配置的VM是在客戶請(qǐng)求VM之前預(yù)先創(chuàng)建并部分配置的VM。正如我們?cè)贗JCAI 2020出版物中描述的那樣,正如我們?cè)谏鲜鯝AAI-20主題演講中描述的那樣,預(yù)配置服務(wù)利用預(yù)測(cè)引擎來(lái)預(yù)測(cè)VM配置以及要預(yù)創(chuàng)建的每個(gè)配置的VM數(shù)量。該預(yù)測(cè)引擎應(yīng)用基于歷史和當(dāng)前部署行為進(jìn)行訓(xùn)練的動(dòng)態(tài)模型,并預(yù)測(cè)未來(lái)的部署。預(yù)配置服務(wù)使用此預(yù)測(cè)為每個(gè)VM配置創(chuàng)建和管理VM池。預(yù)配置服務(wù)通過(guò)按照最新預(yù)測(cè)的規(guī)定銷毀或添加VM來(lái)調(diào)整VM池的大小。一旦識(shí)別出與客戶請(qǐng)求匹配的VM,就將VM從預(yù)先創(chuàng)建的池中分配給客戶的訂閱。

適用于DevOps的AI

人工智能可以提高工程效率并幫助快速交付高質(zhì)量的服務(wù)。以下是AI for DevOps解決方案的一些示例。

事件管理是云服務(wù)管理的重要方面-識(shí)別和緩解罕見但不可避免的平臺(tái)中斷。典型的事件管理過(guò)程包括多個(gè)階段,包括檢測(cè),參與和緩解階段。每個(gè)階段花費(fèi)的時(shí)間用作關(guān)鍵績(jī)效指標(biāo)(KPI),以衡量和推動(dòng)快速解決問題。KPI包括檢測(cè)時(shí)間(TTD),參與時(shí)間(TTE)和緩解時(shí)間(TTM)。

事件管理程序包括檢測(cè)時(shí)間(TTD),參與時(shí)間(TTE)和緩解時(shí)間(TTM)。

ia_3700000006.png

圖4.事件管理過(guò)程。

正如AAAI-20會(huì)議在AIOps云服務(wù)事件管理創(chuàng)新中所分享的那樣,我們已經(jīng)開發(fā)了基于AI的解決方案,使工程師不僅可以及早發(fā)現(xiàn)問題,還可以確定合適的團(tuán)隊(duì)參與進(jìn)來(lái),從而減輕盡快。與平臺(tái)的緊密集成可在某些情況下實(shí)現(xiàn)端到端的非接觸式緩解,從而大大降低了對(duì)客戶的影響,因此改善了整體客戶體驗(yàn)。

異常檢測(cè)為Azure IaaS提供了端到端的監(jiān)視和異常檢測(cè)解決方案。該檢測(cè)解決方案的目標(biāo)是廣泛的異常模式,不僅包括由閾值定義的通用模式,而且還包括通常更難檢測(cè)的模式,例如泄漏模式(例如內(nèi)存泄漏)和新出現(xiàn)的模式(不是峰值,但是隨著長(zhǎng)期的波動(dòng)而增加)。由異常檢測(cè)解決方案生成的見解將注入到現(xiàn)有的Azure DevOps平臺(tái)和流程中,例如,通過(guò)遙測(cè)平臺(tái),事件管理平臺(tái)進(jìn)行警報(bào),并在某些情況下觸發(fā)與受影響客戶的自動(dòng)通信。這有助于我們盡早發(fā)現(xiàn)問題。

對(duì)于已經(jīng)進(jìn)入面向客戶的功能的示例,動(dòng)態(tài)閾值是基于ML的異常檢測(cè)模型。它是通過(guò)Azure門戶或ARM API使用的Azure Monitor的功能。動(dòng)態(tài)閾值允許用戶調(diào)整其檢測(cè)靈敏度,包括指定將觸發(fā)監(jiān)視警報(bào)的違規(guī)點(diǎn)數(shù)。

安全部署可作為Azure全球基礎(chǔ)架構(gòu)組件安全部署的智能全球“看門狗”。我們構(gòu)建了一個(gè)代號(hào)為Gandalf的系統(tǒng),該系統(tǒng)可以分析時(shí)間和空間相關(guān)性,以捕獲在部署數(shù)小時(shí)甚至數(shù)天后發(fā)生的潛在問題。這有助于識(shí)別(在大量的正在進(jìn)行的部署期間)可疑的部署,這在Azure方案中很常見,并有助于防止問題傳播,從而防止對(duì)其他客戶的影響。我們?cè)诖溯^早的博客文章中提供了有關(guān)安全部署實(shí)踐的詳細(xì)信息,并在USENIX NSDI 2020論文和幻燈片中更詳細(xì)地介紹了甘道夫的工作方式。

面向客戶的AI

為了改善Azure客戶的體驗(yàn),我們一直在開發(fā)AI解決方案以支持客戶管理的整個(gè)生命周期。例如,已經(jīng)開發(fā)了決策支持系統(tǒng),以通過(guò)利用客戶的服務(wù)選擇和所遇到問題的逐字摘要來(lái)指導(dǎo)客戶朝著最佳選擇支持資源的方向發(fā)展。這有助于縮短獲得客戶和合作伙伴正確的指導(dǎo)和支持所需的時(shí)間。

人工智能服務(wù)平臺(tái)

為了提高管理全球規(guī)模云的效率,我們一直在投資構(gòu)建支持使用AI的系統(tǒng),以優(yōu)化云資源的使用并從而優(yōu)化客戶體驗(yàn)。一個(gè)示例是Resource Central(RC),它是Azure的AI服務(wù)平臺(tái),我們?cè)贏CM的Communications中對(duì)其進(jìn)行了描述。它從Azure容器和服務(wù)器收集遙測(cè)信息,從它們的先前行為中學(xué)習(xí),并在被請(qǐng)求時(shí)生成對(duì)其未來(lái)行為的預(yù)測(cè)。我們已經(jīng)在使用RC來(lái)準(zhǔn)確預(yù)測(cè)Azure Compute工作負(fù)載的許多特征,包括資源采購(gòu)和分配,所有這些都有助于提高系統(tǒng)性能和效率。

展望未來(lái)

我們已經(jīng)分享了將AI注入Azure平臺(tái)和DevOps流程的愿景,并重點(diǎn)介紹了已在使用的幾種解決方案,這些解決方案可在一系列領(lǐng)域中提高服務(wù)質(zhì)量。希望我們分享內(nèi)部AI和ML解決方案的更多詳細(xì)信息,以便將來(lái)實(shí)現(xiàn)更加智能的云管理。我們相信,這些是正確的投資解決方案,可以提高我們作為云提供商的效率和效率,包括提高Azure平臺(tái)本身的可靠性和性能。

原文鏈接:點(diǎn)擊前往 >
文章來(lái)源:Microsoft Azure
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于Microsoft Azure,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
Azure Arc為企業(yè)構(gòu)建安全的云基礎(chǔ)
Azure Arc為企業(yè)構(gòu)建安全的云基礎(chǔ)
隨著人工智能技術(shù)持續(xù)重塑企業(yè)運(yùn)營(yíng)方式,企業(yè)需要能夠處理海量數(shù)據(jù)的系統(tǒng),以支持實(shí)時(shí)洞察,同時(shí)幫助他們應(yīng)對(duì)跨IT和OT環(huán)境(包括云端、邊緣和本地)中運(yùn)營(yíng)、應(yīng)用、數(shù)據(jù)和基礎(chǔ)設(shè)施的協(xié)作難題。
Azure
微軟云
云服務(wù)
2024-12-17
釋放.NET 9和Azure的AI技術(shù)與云計(jì)算潛力:更快、更智能、面向未來(lái)
釋放.NET 9和Azure的AI技術(shù)與云計(jì)算潛力:更快、更智能、面向未來(lái)
.NET 9現(xiàn)已正式發(fā)布,它為.NET平臺(tái)的發(fā)展掀開了嶄新的一頁(yè),突破了性能、云原生開發(fā)和AI技術(shù)集成的邊界。
Azure
微軟云
云服務(wù)
2024-12-16
Azure網(wǎng)絡(luò)管理現(xiàn)已具備智能Microsoft Copilot副駕駛能力
Azure網(wǎng)絡(luò)管理現(xiàn)已具備智能Microsoft Copilot副駕駛能力
智能Microsoft Copilot副駕駛for Azure網(wǎng)絡(luò)服務(wù)現(xiàn)已推出公共預(yù)覽版。
Azure
微軟云
云服務(wù)
2024-12-10
Microsoft Fabric功能更新,借助AI驅(qū)動(dòng)的數(shù)據(jù)平臺(tái)加速應(yīng)用創(chuàng)新
Microsoft Fabric功能更新,借助AI驅(qū)動(dòng)的數(shù)據(jù)平臺(tái)加速應(yīng)用創(chuàng)新
一年前,我們正式推出了一款端到端數(shù)據(jù)平臺(tái),旨在幫助組織推動(dòng)人工智能轉(zhuǎn)型,并重新定義數(shù)據(jù)的連接、管理和分析方式。
Azure
微軟云
云服務(wù)
2024-12-09
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家