在剛剛結(jié)束的全球計(jì)算機(jī)系統(tǒng)領(lǐng)域頂級(jí)會(huì)議SOSP 2021上,華為云發(fā)表的關(guān)于瑤光調(diào)度算法的論文,創(chuàng)造性地提出了一種普適的負(fù)載生成模型以及生成方法,被大會(huì)收錄。同時(shí),這也是本次大會(huì)唯一收錄的中國(guó)云計(jì)算公司技術(shù)論文。
Symposium on Operating Systems Principles (SOSP) 始辦于1967年,被譽(yù)為計(jì)算機(jī)系統(tǒng)領(lǐng)域的奧斯卡,是由ACM組織的計(jì)算機(jī)科學(xué)領(lǐng)域頂級(jí)會(huì)議。包含開啟互聯(lián)網(wǎng)時(shí)代的Arpanet,分布式系統(tǒng)設(shè)計(jì)公理的CAP原則,公有云標(biāo)志性論文Amazon Dynamo等都是在SOSP會(huì)議上發(fā)表。作為系統(tǒng)領(lǐng)域的最高學(xué)術(shù)會(huì)議,SOSP對(duì)論文要求極高,本屆SOSP論文接受率僅為15.5%。
華為云本次提交的論文《Generating Complex, Realistic Cloud Workloads using Recurrent Neural Networks》由華為云瑤光調(diào)度算法團(tuán)隊(duì)主導(dǎo),主要提出了使用 RNN 模型來生成復(fù)雜的 Cloud Workloads,用于輔助優(yōu)化云資源的調(diào)度,為解決云上超大規(guī)模調(diào)度提供一套突破性的理論模型。
基礎(chǔ)科學(xué)是云計(jì)算的重要理論基礎(chǔ),如果云廠商能夠精準(zhǔn)預(yù)測(cè)未來一段時(shí)間的Workload,就可以對(duì)資產(chǎn)進(jìn)行更為高效地規(guī)劃,為客戶提供更優(yōu)的使用體驗(yàn)。傳統(tǒng)建模方式,僅基于歷史數(shù)據(jù)來進(jìn)行預(yù)測(cè)和調(diào)優(yōu),通常存在如數(shù)據(jù)量規(guī)模小、靈活性差、失效快等問題,同時(shí)基于各種獨(dú)立性假設(shè),使得建模結(jié)果與真實(shí)數(shù)據(jù)的擬合度較低,難以生成真實(shí)的、質(zhì)量高的Workload,導(dǎo)致最終難于做出精準(zhǔn)決策。
論文中創(chuàng)造性地提出一個(gè)全新的算法,以歷史數(shù)據(jù)為輸入,經(jīng)過Batch Arrival、Resource、Lifetime三個(gè)數(shù)學(xué)模型,產(chǎn)生一段包含每個(gè)VM創(chuàng)建時(shí)間、結(jié)束時(shí)間以及對(duì)資源請(qǐng)求的Trace,最終生成復(fù)雜且真實(shí)的Cloud Workload。
下圖展示了對(duì)一段時(shí)間內(nèi) CPU 資源請(qǐng)求量的 Workload,可以看到使用LSTM模型相比傳統(tǒng)模型可以更好地?cái)M合真實(shí)的數(shù)據(jù),從而輔助云廠商進(jìn)行更精確的資源配置。
華為云瑤光分布式云操作系統(tǒng),是面向云、5G、AI時(shí)代打造的智慧云腦,依托全域調(diào)度、動(dòng)態(tài)協(xié)商與治理、多樣性算力智能匹配等能力,讓全域資源供給極優(yōu),多樣性算力使用極簡(jiǎn)。其算法打破70項(xiàng)由全球優(yōu)化算法領(lǐng)域權(quán)威機(jī)構(gòu)SINTEF維護(hù)的PDPTW榜單紀(jì)錄,成為中國(guó)研究機(jī)構(gòu)中最多紀(jì)錄的保持者,并獲得GECCO 2020國(guó)際會(huì)議OCP與USCP運(yùn)籌優(yōu)化算法賽道的雙榜首。本次的研究成果,也是華為云瑤光在分布式云資源調(diào)度、智能決策與優(yōu)化等技術(shù)領(lǐng)域的再一次突破,為華為云平穩(wěn)高效運(yùn)行提供技術(shù)保障。
未來,華為云仍將持續(xù)發(fā)揮基礎(chǔ)科學(xué)領(lǐng)域技術(shù)創(chuàng)新能力,探索分布式云形態(tài)下全域調(diào)度、軟硬協(xié)同等技術(shù),為企業(yè)提供極優(yōu)極簡(jiǎn)的云上體驗(yàn)。