突襲丨一次云上生產(chǎn)環(huán)境的大考

來源:華為云
作者:華為云
時間:2023-01-17
1311
歷時兩周,華為終端云聯(lián)合華為云開展了“突襲”演練,對生產(chǎn)環(huán)境近5000臺云服務(wù)器進行軟下線。此次演練,充分驗證了華為終端云業(yè)務(wù)在站點級異常情況下的高度穩(wěn)定可靠。每年,華為云在內(nèi)部開展超過2000次混沌工程演練,并聯(lián)合外部客戶完成超過20次支付類、證券類、財經(jīng)類等應(yīng)用高可用演練。

突然提示的業(yè)務(wù)告警

卻又在幾分鐘內(nèi)自動恢復(fù)

數(shù)個運維工程師正加急排查

……

一次云上生產(chǎn)環(huán)境的突襲正在進行

歷時兩周,華為終端云聯(lián)合華為云開展了“突襲”演練,對生產(chǎn)環(huán)境近5000臺云服務(wù)器進行軟下線。此次演練,充分驗證了華為終端云業(yè)務(wù)在站點級異常情況下的高度穩(wěn)定可靠。每年,華為云在內(nèi)部開展超過2000次混沌工程演練,并聯(lián)合外部客戶完成超過20次支付類、證券類、財經(jīng)類等應(yīng)用高可用演練。

華為云建立了全球運維團隊,通過前端的高可用架構(gòu)設(shè)計、動態(tài)風(fēng)險治理體系以及智能運維工具,致力于讓不確定性風(fēng)險可防、可治、可控,保障了全球客戶和超過370萬開發(fā)者的海量業(yè)務(wù)穩(wěn)定可靠。

640 (1).jpg

專業(yè)可靠的運維能力,讓客戶笑言:“現(xiàn)在我們只要專注于業(yè)務(wù)運維,可以放心地把后背交給華為云。”

現(xiàn)網(wǎng)穩(wěn)定運行的背后,是一群默默守護的華為云SRE(Site Reliability Engineer,站點可用性工程師)……

可靠組織文化

保障業(yè)務(wù)穩(wěn)定運行

軟件的故障、硬件的故障、機房的故障、甚至人的變更操作等故障存在,導(dǎo)致現(xiàn)網(wǎng)存在著大量的不確定性。

讓華為云穩(wěn)定可靠是SRE團隊的使命,他們是華為云的質(zhì)量守護者,助力客戶提升應(yīng)用穩(wěn)定性,通過面向云服務(wù)全生命周期的質(zhì)量看護,實現(xiàn)現(xiàn)網(wǎng)可預(yù)期的高可用質(zhì)量結(jié)果,華為云SRE讓現(xiàn)網(wǎng)中的不確定性變成確定性。

640.png

確定性運維

應(yīng)對不確定故障

隨著數(shù)字化的深入,業(yè)務(wù)穩(wěn)定是千行百業(yè)的共同挑戰(zhàn)。

當我們要出門,希望出行APP是可用的;當我們要預(yù)定餐廳,希望訂餐APP是可用的;當我們在上班,希望生產(chǎn)工具是可用的……

不論是數(shù)字應(yīng)用的開發(fā)者、運營方,還是終端APP的使用者、消費者,所有人對于數(shù)字化系統(tǒng)和應(yīng)用的確定性保障都十分關(guān)心,希望故障間隔、恢復(fù)時長和影響范圍都是確定的。

為此,華為云SRE提出了“確定性運維”基本理念,把云化帶來的不確定性,通過運維變成確定性,不斷夯實基礎(chǔ)運維能力。

確定性運維作為華為云運維質(zhì)量的指導(dǎo)思想,通過全面的質(zhì)量管理,在現(xiàn)網(wǎng)實現(xiàn)確定性故障率、確定性恢復(fù)時長和確定性影響范圍。

確定性運維能力是高可用架構(gòu)、動態(tài)風(fēng)險治理體系、高度智能運維框架形成的一個有機結(jié)合體,覆蓋了應(yīng)用從產(chǎn)品設(shè)計、開發(fā)到部署上線,再到日常運行的生命周期全過程。

640 (1).png

高可用架構(gòu)

確定性運維從架構(gòu)上來看,包含確定性爆炸半徑、確定性故障率和確定性恢復(fù)時長。其中,最大的優(yōu)勢是確定性的恢復(fù)能力,現(xiàn)網(wǎng)的故障往往是非預(yù)期,而華為云通過架構(gòu)設(shè)計,采用黑盒方式恢復(fù)各種未知故障,達到從前端阻止故障發(fā)生。

動態(tài)風(fēng)險治理體系

將AI能力引入運維,以技術(shù)驅(qū)動實現(xiàn)風(fēng)險提前冒泡,并及時主動清除;持續(xù)提升監(jiān)控、定界與快速恢復(fù)能力,構(gòu)建混沌工程等主動運維能力,通過現(xiàn)網(wǎng)不停地自動化注入各種故障,讓現(xiàn)網(wǎng)的高可用的能力始終處于激活或者在驗證的狀態(tài);用數(shù)據(jù)智能支撐運維工作的持續(xù)改進。

高度智能運維框架

依托數(shù)據(jù)中臺,結(jié)合先進的算法,實現(xiàn)智能告警、智能故障定界、自動恢復(fù)等。華為云智能運維平臺在AI加持下,讓華為云SRE可以更高效地服務(wù)客戶。

共同構(gòu)建安全穩(wěn)定高可靠的

確定性運維世界

華為云通過業(yè)界獨有的“確定性運維”能力體系成熟度模型,幫助業(yè)內(nèi)同行基于運維模式,對組織、文化、體系、能力、工具進行評估,衡量確定性運維的成熟度,共同探討優(yōu)化策略,推進運維能力邁向新臺階。

640 (2).png

華為云SRE針對具體運維可用性問題進行專項提升,推出《華為云SRE確定性運維???,開創(chuàng)一個交流平臺,通過方案優(yōu)化、經(jīng)驗分享等方式,相互啟發(fā)與碰撞,助力客戶提升應(yīng)用穩(wěn)定性,構(gòu)建安全穩(wěn)定高可靠的“確定性”運維世界。

未來,華為云將繼續(xù)踐行“一切皆服務(wù)”

實現(xiàn)確定性運維,讓運維極簡智能

并和更多企業(yè)一起開展

面向應(yīng)用視角的穩(wěn)定性提升工作

幫助企業(yè)在質(zhì)量、成本、效率中尋找最優(yōu)方案

構(gòu)筑業(yè)界一流的軟件質(zhì)量

讓企業(yè)業(yè)務(wù)在華為云上創(chuàng)新更穩(wěn)定可靠!

立即登錄,閱讀全文
原文鏈接:點擊前往 >
版權(quán)說明:本文內(nèi)容來自于華為云,本站不擁有所有權(quán),不承擔相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
近6成金融機構(gòu)的選擇!華為云GaussDB加快金融核心系統(tǒng)轉(zhuǎn)型
近6成金融機構(gòu)的選擇!華為云GaussDB加快金融核心系統(tǒng)轉(zhuǎn)型
當前,數(shù)據(jù)庫在金融機構(gòu)的應(yīng)用正在從辦公、一般系統(tǒng)逐步邁入核心系統(tǒng)應(yīng)用的深水區(qū)。如何構(gòu)建安全可靠、高效穩(wěn)定的核心系統(tǒng)數(shù)據(jù)庫,支持業(yè)務(wù)運營和管理決策,成為了眾多金融機構(gòu)關(guān)注的焦點問題。
華為云
2024-07-04
華為云以系統(tǒng)性創(chuàng)新加速千行萬業(yè)智能化升級
華為云以系統(tǒng)性創(chuàng)新加速千行萬業(yè)智能化升級
華為云全球銷售收入達553億元人民幣,是全球增長最快的主流云廠商之一。
華為云
2024-04-22
華為云發(fā)布新型工業(yè)互聯(lián)網(wǎng)平臺參考架構(gòu)
華為云發(fā)布新型工業(yè)互聯(lián)網(wǎng)平臺參考架構(gòu)
近日,在華為分析師大會上,華為混合云副總裁胡玉海重磅發(fā)布《新型工業(yè)互聯(lián)網(wǎng)平臺參考架構(gòu)》白皮書,在傳統(tǒng)工業(yè)互聯(lián)網(wǎng)的基礎(chǔ)上,融入大模型的能力,讓智能化賦能新型工業(yè)化。
華為云
云服務(wù)
2024-04-22
支撐核心系統(tǒng)分布式改造,GaussDB為江南農(nóng)商銀行筑穩(wěn)根基
支撐核心系統(tǒng)分布式改造,GaussDB為江南農(nóng)商銀行筑穩(wěn)根基
在移動互聯(lián)網(wǎng)快速普及的當下,金融機構(gòu)能否提供便捷、智能、個性化的金融服務(wù),成為關(guān)乎業(yè)務(wù)開展和企業(yè)成長的重要命題。
華為云
2024-01-25
優(yōu)質(zhì)服務(wù)商推薦
更多