華為云競享實例如何讓企業(yè)體驗“算力”自由

來源: 華為云社區(qū)
作者:技術(shù)火炬手
時間:2021-03-19
17166
借助華為云瑤光智慧云腦平臺,競享實例以致力讓用戶“用得上算力、用得起算力”的創(chuàng)新商業(yè)模式,推出的全新一代計算服務(wù),能夠幫助用戶短時間內(nèi),以低成本快速提升算力規(guī)模,從而為助力企業(yè)真正享受到“算力自由”!

在邊緣計算、5G、物聯(lián)網(wǎng)、人工智能等技術(shù)的推動下,促進了各行各業(yè)的數(shù)據(jù)呈指數(shù)級增長,也加速了數(shù)據(jù)時代的進程。而數(shù)據(jù)形態(tài)的多樣化和對計算需求快速增長,給企業(yè)IT部署帶來了很多新的挑戰(zhàn)。

Rescale首席執(zhí)行官Joris Poort曾表示,Rescale的自建集群的成本總額每月11萬美元,包括運營運維人員和其他費用。這其中大約4萬美元是硬件相關(guān)的成本,而另外7萬幾乎是運營成本支出。

可以看出,隨著數(shù)據(jù)變成業(yè)務(wù)經(jīng)營不可或缺的一部分,企業(yè)必須考慮IT設(shè)備的初始建設(shè)投入、時間成本、運維成本,以確定最適合利用的平臺。企業(yè)正面臨越來越大的壓力,他們需要構(gòu)建和購買能夠快速響應(yīng)組織應(yīng)用程序工作負載要求的基礎(chǔ)架構(gòu)。在一個IT已從成本中心轉(zhuǎn)變成企業(yè)競爭優(yōu)勢動力來源的世界中,一刀切式的IT基礎(chǔ)設(shè)施應(yīng)用方案已然不再適用。

競享實例讓你不再發(fā)愁算力難題

然而,我們會發(fā)現(xiàn)人類行為會有周期性“潮汐效應(yīng)”,例如社交類產(chǎn)品,會出現(xiàn)因為社會熱點話題引發(fā)的流量高峰事件,且流量峰值不可預(yù)估。在這種情況下,企業(yè)希望IT設(shè)施服務(wù)的價格頻繁的變化,同時設(shè)施的使用效果和時長有一定的保障,價格能保持一個相對的便宜就是最好的了。針對企業(yè)的這些需求,華為云就推出了“競享實例”服務(wù)。競享型實例作為計算實例新模式,用戶可以先到先享,并將顆粒化算力瞬間批量組織起來用于各類可容錯場景。

競享實例采用的是固定折扣、先到先享、使用時長有保障三大特性,擁有著華為云C系列高性能云服務(wù)器技術(shù)基因,最高支持64核256G,同規(guī)格同性能機型價格低至按需實例的1.5折。為云上用戶提供穩(wěn)定、高效、安全的高性價比算力。

如此體貼用戶的服務(wù),競享實例背后依賴的則是基于華為云擎天架構(gòu)中的瑤光智慧云腦系統(tǒng)?,幑獾脑O(shè)計初衷就是聚焦解決云基礎(chǔ)服務(wù)在創(chuàng)新過程中遇到的痛點,計算資源碎片的優(yōu)化是其中核心的技術(shù)專項。

瑤光智慧云腦通過智能算法學(xué)習(xí)生成資源池畫像、預(yù)測客戶需求,調(diào)度時系統(tǒng)可以選擇最優(yōu)的主機,讓用戶使用時無需擔心實例被收回。其通過負載智能分類與周期識別技術(shù),對熱點做到實時監(jiān)控和預(yù)測,結(jié)合擎天Zero hypervisor做到實時熱點消除,從而為用戶提供“零”抖動的高質(zhì)量算力。同時,通過運籌優(yōu)化與強化學(xué)習(xí)相結(jié)合算法自學(xué)習(xí)技術(shù),基于現(xiàn)網(wǎng)數(shù)據(jù)持續(xù)迭代優(yōu)化算法,持續(xù)提高資源使用效率,真正做到通過技術(shù)創(chuàng)新釋放紅利。

邁向多維智慧,智能畫像與預(yù)測算法剖析

在服務(wù)客戶的過程中,如果能提前預(yù)測客戶需求,就能通過智能推薦、智能告警等來提升易用性,更能提前進行硬件規(guī)劃、資源騰挪,保障流量洪峰下的擴容訴求,助力實現(xiàn)“極優(yōu)、極簡”的云上體驗。

資源智能畫像(以下簡稱“智能畫像”)是構(gòu)成華為云瑤光“多維智慧”的關(guān)鍵一環(huán)。根據(jù)VM歷史資源利用率、VM請求時間間隔、Flavor生命周期等歷史數(shù)據(jù),利用關(guān)聯(lián)分析模型和深度學(xué)習(xí)算法,可用來描繪資源表面、內(nèi)在以及未來。智能畫像的引入讓云平臺資源管理更加精細化、智能化。

  • 時序預(yù)測

在云服務(wù)中,像容量預(yù)測,主機熱點、動態(tài)告警等都涉及到時序預(yù)測,即如果知道一段歷史時間(T*時刻以前)的數(shù)據(jù)變化規(guī)律,如何去預(yù)測未來一段時間的變化趨勢呢?生活中如天氣的變化、人口增長、經(jīng)濟增速、股票波動,甚至最近大家比較關(guān)注的新冠疫情的發(fā)展都屬于時序預(yù)測范疇。

1603163983001036067.png

圖  時序預(yù)測

  • 云上時序預(yù)測的輸入主要來源于主機或虛擬機的資源利用率,而云上業(yè)務(wù)的復(fù)雜多變,也提升了分析資源利用規(guī)律的復(fù)雜度。總體而言,有三方面的挑戰(zhàn):

  • 波形的復(fù)雜性:我們初步分析歷史trace的數(shù)據(jù)并形成圖像,可以看到有少部分是平穩(wěn)的甚至是有近似周期性的,也有一部分呈現(xiàn)上升或下降的趨勢,但更多的是單個“山峰”或者偶爾突發(fā)的情況,甚至?xí)蓄l繁地上下震蕩;

  • 業(yè)務(wù)的疊加性:以上波形表征的多樣性,主要是由于云平臺中單臺物理主機上可能運行著多個租戶的多個VM,同時單個VM也可能運行著多種應(yīng)用;

  • 不可以預(yù)見的人為因素:比如因促銷而產(chǎn)生的批量訂單往往會導(dǎo)致某個資源池無法容納;超大規(guī)格VM的偶然創(chuàng)建也可能引發(fā)一些容量事件。

  • 業(yè)務(wù)識別

云平臺每時每刻承載著海量的業(yè)務(wù),這些業(yè)務(wù)中有些是CPU密集型的,有些是內(nèi)存密集型,也有些是網(wǎng)絡(luò)密集型等等。假設(shè)大家都“搶”CPU資源,且這些業(yè)務(wù)都放在同一臺主機上,那么就會引發(fā)資源爭奪的“打架”行為,造成業(yè)務(wù)之間的互相干擾;但如果把相同密集型的業(yè)務(wù)分開放,比如CPU密集型與網(wǎng)絡(luò)密集型混合放置,那么也許可以“和平共處”。由此,引出一個問題(圖8):在云上如何從底層的資源監(jiān)控數(shù)據(jù)能夠準確地識別上層業(yè)務(wù)類型,從而盡可能減少業(yè)務(wù)間的干擾性,保證租戶QoS?

1603164005136003350.png

圖  業(yè)務(wù)識別與QoS調(diào)度

首先,我們可以通過各維度資源的利用情況進行關(guān)聯(lián)性分析,使用Spearman系數(shù)計算任意兩個維度的關(guān)聯(lián)程度,形成一個“feature map”(圖9)。此外,我們還可以在原始的數(shù)據(jù)序列中使用多個不同大小的滑動時間窗口,在每個時間窗后中提取數(shù)據(jù)更細粒度的特征,類似“卷積核”的辦法。綜合以上兩方面,可以對業(yè)務(wù)類別進行初步的畫像。

1603164014741029598.png

圖  資源利用相關(guān)性

  • 算力匹配

我們在業(yè)務(wù)識別中發(fā)現(xiàn)一個現(xiàn)象:相當一部分用戶其實不清楚什么樣的虛擬機類型/套餐(通常稱為flavor)最適合其業(yè)務(wù)。因為從監(jiān)控數(shù)據(jù)可以看出,大部分用戶資源跑得很閑,即未能將資源充分利用起來;另外也有部分用戶一直處于滿負載狀態(tài),如可能運行大數(shù)據(jù)作業(yè)或AI應(yīng)用。那么,如何給用戶推薦既滿足其業(yè)務(wù)訴求又使得性價比最高的最佳資源配置?如圖10所示,用戶通常只知道自己需要運行什么樣的應(yīng)用、有多大的數(shù)據(jù)量、需要什么時間點完成以及有多少預(yù)算等等,雖然用戶傾向于更便宜的虛擬機類型,但通常不知道哪種類型性價比最高。

1603164035996088836.png

圖  算力匹配

一般的思路是把所有用戶與歷史所使用過的虛擬機類型(flavor)構(gòu)成一個二維矩陣,如果一個用戶使用過某種虛擬機類型,那么我們就可以根據(jù)租戶的資源使用情況對item進行綜合打分。當然,最終的矩陣是非常稀疏的,我們需要做的是通過SVD&PQ這類的算法進行矩陣分解并且預(yù)測那些用戶沒有使用過的虛擬機類型的分值,并根據(jù)這個分值大小進行推薦。

但是,如果僅根據(jù)最高預(yù)測分值進行推薦,可能會導(dǎo)致某些用戶增加的成本較高。如圖11所示,假設(shè)某個用戶原來使用1u1g的虛擬機規(guī)格,瞬間給其推薦4u8g的配置,從業(yè)務(wù)上也許已經(jīng)緩和其高負載狀況,但是用戶需要多付的錢可能是其不能接受的。因此,需要綜合考量虛擬機價格和規(guī)格大小進行推薦距離度量,給出合理的推薦范圍。

1603164045744079200.png

圖  推薦距離度量

  • 容量畫像與最佳適應(yīng)調(diào)度

一方面,如果能夠?qū)Y源池余量進行精準畫像,即通過設(shè)計測算定理預(yù)測每種flavor未來還能放置多少;另一方面,可以統(tǒng)計每種flavor在過去請求trace中的分布比例。結(jié)合這兩方面的信息,可以設(shè)計一種容量調(diào)度算法Besfit Capacity用于虛擬機在線調(diào)度,以讓任意兩種flavor的剩余容量比盡可能接近于它們的歷史請求比。

這里采用首次發(fā)放失敗時,算法接收的請求數(shù)量與最大理論上界的比值作為評測指標,從下可以看到,相比傳統(tǒng)Cosfit算法及其改進算法,Besfit Capacity算法表現(xiàn)更優(yōu),甚至某些場景下比傳統(tǒng)Bestfit算法更好。

1603164070222025700.png

 圖  容量調(diào)度對比實驗

  • 利用率畫像與彈性調(diào)度

傳統(tǒng)虛擬機調(diào)度是基于分配率的,但實際上大部分虛擬機處于低利用率狀態(tài),并且不均衡的利用率情況下,容易產(chǎn)生熱點主機(即主機資源利用率>60%)。這里通過利用率預(yù)測的辦法,把基于利用率調(diào)度與基于分配率調(diào)度進行對比實驗,同時對相同一段時間的歷史請求序列進行回放。從表1可以看到,相比分配率調(diào)度,利用率畫像+動態(tài)Bestfit算法可以少用5臺主機,內(nèi)存碎片率減少2.1%,同時熱點主機數(shù)從原來的6臺減少到0臺。

1603164095816089002.png

 表1 - 利用率調(diào)度與分配率調(diào)度對比實驗

  • 資源預(yù)測與容量規(guī)劃

前面介紹的分解-組合預(yù)測法EEMD與傳統(tǒng)Holt-Winters進行的實驗對比分析,使用兩個trace分別預(yù)測它們未來半小時、一小時以及一個半小時的資源用量,并且預(yù)測多次。從下圖可以看出,EEMD預(yù)測法擬合效果更好、性能更加穩(wěn)定,尤其在較長時間的預(yù)測場景中,預(yù)測誤差可比Holt-Winters減少20%以上。我們使用這個方法進行容量規(guī)劃,預(yù)測準確度95%以上,上線后有效將容量引起的客戶事件數(shù)減少60%以上。

1603164125385064513.png

圖  EEMD與Holt-Winters對比實驗

借助華為云瑤光智慧云腦平臺,競享實例以致力讓用戶“用得上算力、用得起算力”的創(chuàng)新商業(yè)模式,推出的全新一代計算服務(wù),能夠幫助用戶短時間內(nèi),以低成本快速提升算力規(guī)模,從而為助力企業(yè)真正享受到“算力自由”!如果現(xiàn)在想體驗競享實例,瞬享自由算力,點擊立即開啟體驗之旅!

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于華為云社區(qū),本站不擁有所有權(quán),不承擔相關(guān)法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
近6成金融機構(gòu)的選擇!華為云GaussDB加快金融核心系統(tǒng)轉(zhuǎn)型
近6成金融機構(gòu)的選擇!華為云GaussDB加快金融核心系統(tǒng)轉(zhuǎn)型
當前,數(shù)據(jù)庫在金融機構(gòu)的應(yīng)用正在從辦公、一般系統(tǒng)逐步邁入核心系統(tǒng)應(yīng)用的深水區(qū)。如何構(gòu)建安全可靠、高效穩(wěn)定的核心系統(tǒng)數(shù)據(jù)庫,支持業(yè)務(wù)運營和管理決策,成為了眾多金融機構(gòu)關(guān)注的焦點問題。
華為云
2024-07-042024-07-04
華為云以系統(tǒng)性創(chuàng)新加速千行萬業(yè)智能化升級
華為云以系統(tǒng)性創(chuàng)新加速千行萬業(yè)智能化升級
華為云全球銷售收入達553億元人民幣,是全球增長最快的主流云廠商之一。
華為云
2024-04-222024-04-22
華為云發(fā)布新型工業(yè)互聯(lián)網(wǎng)平臺參考架構(gòu)
華為云發(fā)布新型工業(yè)互聯(lián)網(wǎng)平臺參考架構(gòu)
近日,在華為分析師大會上,華為混合云副總裁胡玉海重磅發(fā)布《新型工業(yè)互聯(lián)網(wǎng)平臺參考架構(gòu)》白皮書,在傳統(tǒng)工業(yè)互聯(lián)網(wǎng)的基礎(chǔ)上,融入大模型的能力,讓智能化賦能新型工業(yè)化。
華為云
云服務(wù)
2024-04-222024-04-22
支撐核心系統(tǒng)分布式改造,GaussDB為江南農(nóng)商銀行筑穩(wěn)根基
支撐核心系統(tǒng)分布式改造,GaussDB為江南農(nóng)商銀行筑穩(wěn)根基
在移動互聯(lián)網(wǎng)快速普及的當下,金融機構(gòu)能否提供便捷、智能、個性化的金融服務(wù),成為關(guān)乎業(yè)務(wù)開展和企業(yè)成長的重要命題。
華為云
2024-01-252024-01-25
優(yōu)質(zhì)服務(wù)商推薦
更多
個人VIP