今天的高性能計(jì)算可以說是無處不在,地球物理研究、基因測(cè)序、石油挖礦等等領(lǐng)域當(dāng)中都有它的身影。由于最新一代的人工智能技術(shù),以及大數(shù)據(jù)技術(shù)的發(fā)展更是將高性能計(jì)算推廣到更多領(lǐng)域。計(jì)算量不斷提升的壓力下,高性能計(jì)算系統(tǒng)面臨以下挑戰(zhàn):如何在更高性價(jià)比的情況下,使計(jì)算能力大幅度地提高?如何處理在集群運(yùn)作過程中大量的管理工作?這就是為何大家開始考慮如何能把高性能計(jì)算作業(yè)上云。
2019年底,亞馬遜云科技對(duì)其全球1500個(gè)云上客戶的整體的應(yīng)用成本方面,以及運(yùn)維效率、產(chǎn)品上市、時(shí)間維度方面做了分析,TCO(Total cost of ownership),得出結(jié)論:整體上云后,他們的成本能降低27%左右,同時(shí)管理效率提升了50%。同時(shí),因?yàn)楹芏嘣粕系膽?yīng)用實(shí)際可以自動(dòng)化。這使得客戶能輕松地在云上一鍵部署,快速擴(kuò)張,以及快速關(guān)停。整體業(yè)務(wù)的TTM時(shí)間提升了37%。
HPC連線雜志,會(huì)在每一年對(duì)全球?qū)嶋H用戶進(jìn)行調(diào)查。亞馬遜云科技連續(xù)3年被其評(píng)為最佳高性能云計(jì)算平臺(tái)。目前,在全球高性能計(jì)算轉(zhuǎn)向云平臺(tái)的過程中,其中大概58%的高性能計(jì)算在云平臺(tái)上的計(jì)算量處于在亞馬遜云科技平臺(tái)上。而亞馬遜云科技在整個(gè)云科技領(lǐng)域中所做的前瞻性研究和投入使得其可以走在行業(yè)前沿。
2021 CCF全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)上,亞馬遜云科技榮獲2021年度自主研發(fā)的Graviton2芯片及相關(guān)計(jì)算實(shí)例產(chǎn)品創(chuàng)新大獎(jiǎng)。
亞馬遜云科技大中華區(qū)企業(yè)業(yè)務(wù)拓展部總經(jīng)理凌琦在2021 CCF全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)上指出,以下四個(gè)方面將不斷推動(dòng)高性能計(jì)算上云。
快速構(gòu)建
云能夠在高性能計(jì)算領(lǐng)域里給大家?guī)砀玫挠?jì)算效能,更好的彈性,以及更低的成本。所有涉及到做高性能計(jì)算的行業(yè)都應(yīng)該從計(jì)算負(fù)載開始倒推,尤其是傳統(tǒng)的科學(xué)計(jì)算方面,如仿真、腦科學(xué)研究、半導(dǎo)體設(shè)計(jì)、天氣預(yù)報(bào)分析、基因測(cè)序所有這些應(yīng)用領(lǐng)域絕大多數(shù)現(xiàn)在都已經(jīng)在云上可以得到實(shí)現(xiàn)。在亞馬遜云科技平臺(tái)上用戶只要把行業(yè)應(yīng)用簡(jiǎn)單遷移就可以快速搭建一個(gè)HPC集群,然后提交計(jì)算作業(yè)。
承載無限
不同的負(fù)載需要不同架構(gòu)的計(jì)算平臺(tái)和計(jì)算指令集結(jié)構(gòu)。云端不僅有很多傳統(tǒng)的X86指令集系統(tǒng)CPU可以選擇,在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域,尤其是GPU大規(guī)模使用到高性能使用當(dāng)中,在云上也可以自由選擇GPU的實(shí)例,非常方便,不需要為了要用某一個(gè)實(shí)例去擴(kuò)張你的集群,每一次擴(kuò)張都是面向未來不確定性的抉擇。亞馬遜云科技基于Arm的架構(gòu)設(shè)計(jì)出Amazon Graviton2處理器,并將其算力通過云的形式對(duì)外提供服務(wù)。相對(duì)于傳統(tǒng)計(jì)算架構(gòu),Amazon Graviton2能帶來最高40%性價(jià)比提升,能在更經(jīng)濟(jì)的情況下完成高性能計(jì)算任務(wù)。
前沿計(jì)算
亞馬遜云科技與世界上領(lǐng)先的量子計(jì)算平臺(tái)開展合作,目前在亞馬遜量子計(jì)算平臺(tái)上能提供3家量子計(jì)算的硬件廠商所提供的計(jì)算能力,包括ROK的,這些計(jì)算能力打破了整個(gè)量子計(jì)算高不可攀的門檻。亞馬遜云科技就能通過此平臺(tái)提供在量子計(jì)算方面的實(shí)驗(yàn)和使用。
公開數(shù)據(jù)集
當(dāng)今的高性能計(jì)算很大程度上與大數(shù)據(jù)或人工智能仿真相關(guān),由此帶來大量數(shù)據(jù)應(yīng)用。除了客戶自己的數(shù)據(jù)外,在建立模型以及對(duì)模型進(jìn)行測(cè)試也會(huì)需要處理大量的公開的數(shù)據(jù)集或第三方的數(shù)據(jù)集。亞馬遜云服務(wù)在全球提供了很多公開數(shù)據(jù)集,包括有300多個(gè)公開數(shù)據(jù)集。例如,對(duì)于地球物理環(huán)境的監(jiān)控?cái)?shù)據(jù),包括對(duì)海洋表面溫度的數(shù)據(jù)和人類的基因數(shù)據(jù)。
這些公開數(shù)據(jù)集給科研基礎(chǔ)研究帶來諸多便利,并且可以在亞馬遜云科技平臺(tái)上輕松獲得。這也是亞馬遜云科技在高性能計(jì)算領(lǐng)域中所提供的服務(wù)的獨(dú)到之處。這些數(shù)據(jù)集不僅擁有計(jì)算能力、存儲(chǔ)能力,還免費(fèi)向用戶開放。
Formula1,一級(jí)方程式大賽是全球最昂貴,而且科技成本最高的一個(gè)體育賽事。在車輛的設(shè)計(jì)以及比賽場(chǎng)館的監(jiān)控,大量使用了計(jì)算能力,特別是在CFD空氣動(dòng)力學(xué)方面的能力。大家可以看到,F(xiàn)1的廠商車輛設(shè)計(jì)中,大量在使用亞馬遜云科技的計(jì)算能力。
如今,汽車的設(shè)計(jì)已經(jīng)越來越精益求精。例如,在比賽場(chǎng)地的表現(xiàn)非常有趣,頭車有一定的優(yōu)勢(shì),使后面跟隨的車由于這些湍流的影響,后面的車很難超越。通過這些設(shè)計(jì)可以發(fā)現(xiàn)如何設(shè)計(jì)車輛,如何規(guī)避這些車輛超車過程中的行為,使湍流對(duì)它的影響做到最小,使整個(gè)比賽更加激動(dòng)人心。這個(gè)大量使用了計(jì)算能力所看到的。
以金風(fēng)慧能為例,尤其是風(fēng)電的產(chǎn)生,風(fēng)電場(chǎng)管理方面,對(duì)于天氣的預(yù)測(cè)以及風(fēng)廠的管理非常有關(guān)系,如何能在風(fēng)電廠里最好地對(duì)于當(dāng)?shù)氐男…h(huán)境當(dāng)中的天氣進(jìn)行預(yù)測(cè),這實(shí)際是WRF高性能計(jì)算的應(yīng)用。16個(gè)CPU達(dá)到了之前武力數(shù)據(jù)中心28核服務(wù)器性能云上的WRF全流程運(yùn)維工作。大家可以看到,實(shí)際成本降低了70%,而計(jì)算時(shí)間降低了30%,這樣的應(yīng)用對(duì)整個(gè)商業(yè)收獲頗豐。
CGG China開發(fā)的石油儲(chǔ)層表解釋的軟件是經(jīng)過勘測(cè)后拿到地深層的數(shù)據(jù)進(jìn)行計(jì)算的運(yùn)用。原來都是在物理集群中使用,然而在亞馬遜的云科技平臺(tái)上CGG China已經(jīng)能提供很多應(yīng)用能力,幾分鐘內(nèi)可以延伸幾千萬個(gè)CPU。
高性能計(jì)算能夠在云上大規(guī)模使用的同時(shí),不會(huì)給環(huán)境帶來更大的壓力。今天在云上的高性能計(jì)算能達(dá)到原先3.6倍以上的能效,能減少88%的碳排放。亞馬遜云科技已經(jīng)承諾在2025年將所有在云計(jì)算方面使用的能源全部轉(zhuǎn)向可再生能源。