自《“十四五”國家信息化規(guī)劃》發(fā)布以來,數(shù)字化轉(zhuǎn)型已經(jīng)在各行各業(yè)全面展開。很多企業(yè)都會采用混合云架構(gòu)打造數(shù)字化底座;混合云在帶來更靈活、更安全、低成本等優(yōu)勢的同時,其異構(gòu)的特點也使得運維團隊在跨云環(huán)境中面臨了許多挑戰(zhàn)。
針對用戶面臨的挑戰(zhàn),UCloud近日正式發(fā)布天鏡·智能告警產(chǎn)品(SkyM Alert),基于UCloud多年云計算運維經(jīng)驗沉淀而成的最佳實踐,通過集成、降噪、分派、通知四類功能串聯(lián)故障告警,為用戶提供集中化的故障全周期管理。
故障全周期管理
輕松集成
在混合云架構(gòu)中,各類云服務(wù)商和監(jiān)控平臺,產(chǎn)生的告警數(shù)據(jù)結(jié)構(gòu)差異較大,給運維帶來了巨大不便,天鏡·智能告警通過自研的數(shù)據(jù)處理引擎,將異構(gòu)數(shù)據(jù)進行一致性處理,只需要簡單的幾個步驟,即可在頁面集中管理全量告警,帶來一致性的故障處理體驗。
精準(zhǔn)降噪
告警風(fēng)暴一直是運維過程中的大麻煩,天鏡·智能告警提供多種降噪方式來解決這個問題。使用去重、防抖、合并、靜默,消除大量無效告警,全面壓制告警風(fēng)暴,幫助運維人員專注處理關(guān)鍵故障。
具體來說,天鏡·智能告警支持三類降噪方式:
·告警降噪,能夠?qū)崿F(xiàn)同一來源的相同告警收斂和同一時間窗口不同來源的不同告警收斂。
·通知降噪,可以先通知后收斂一定時間周期內(nèi)的相同告警;或者先收斂,超過一定時間周期未恢復(fù)的告警再通知。
·告警靜默,可以根據(jù)用戶的自定義配置對告警進行靜默,支持持續(xù)性靜默和周期性靜默。
高效協(xié)同
告警的快速響應(yīng)和處理,是業(yè)務(wù)正常運行的重要保障,因此,智能告警平臺提供了靈活的告警分派和升級策略,以確保告警能及時地觸達(dá)對應(yīng)的處理人員,幫助用戶搭建有效的on-call值班響應(yīng)機制。
此外支持運維團隊在統(tǒng)一管理頁面協(xié)同處理每個故障,并進行操作過程記錄和處理過程備注,提高故障處理效率,同時,可將每一個故障處理過程沉淀下來作為運維經(jīng)驗,幫助企業(yè)在未來更好地應(yīng)對類似問題。
個人看板,智能告警平臺通過構(gòu)建一個基于個人的工作看板,讓運維人員能夠更專注地處理告警,而不被無關(guān)信息干擾。這樣就能更快地定位和解決告警,并提高工作效率。
團隊看板,開啟團隊看板可以實現(xiàn)對故障告警的全局性了解,如最新收斂比、收斂趨勢圖,并支持實時查看運維人員的MTTA、MTTR趨勢。這些數(shù)據(jù)可以幫助業(yè)務(wù)和運營負(fù)責(zé)人更好地了解應(yīng)用運行情況,并提供更專業(yè)的運維見解。
多維度告警分析,通過對跨平臺的告警數(shù)據(jù)進行一體化展現(xiàn),智能告警平臺為業(yè)務(wù)和運營負(fù)責(zé)人提供了對告警對象、指標(biāo)、內(nèi)容和運維人員工作效率的數(shù)據(jù)支撐,進一步提高了團隊的運營掌控能力。
通知必達(dá)
支持電話、短信、郵件、釘釘、飛書、企微等多種告警通知方式,可根據(jù)告警類型進行配置,秒級多渠道分發(fā),實現(xiàn)告警必達(dá),大大提升告警通知的有效到達(dá)率。
是應(yīng)用,更是服務(wù)
UCloud天鏡·智能告警不僅提供產(chǎn)品應(yīng)用,而且還將UCloud多年的云計算運維經(jīng)驗和最佳實踐分享給用戶。在訂閱期內(nèi),UCloud將深入分析用戶的業(yè)務(wù)環(huán)境,梳理用戶實際需要的監(jiān)控項和告警規(guī)則,搭建符合用戶業(yè)務(wù)現(xiàn)狀的智能告警平臺,并提供應(yīng)急運維服務(wù),共同建立運維SOP,幫助用戶在故障運維場景中獲得真正的技術(shù)支持。
以「應(yīng)用」為基石,以「服務(wù)」為本心,天鏡·智能告警幫助企業(yè)提升故障響應(yīng)和處理速度、減少資源浪費、保障業(yè)務(wù)的高可用,使繁瑣復(fù)雜的運維工作,變得更加精細(xì)和專注,助力企業(yè)在數(shù)字化轉(zhuǎn)型的道路上順利前行。