華為云 AI 容器：零基礎搭建 AI 計算平臺，提升計算效率 50%

來源：華為云社區(qū)

作者：鯤鵬小玩家

時間：2021-03-31

如今，企業(yè)的數(shù)字化轉(zhuǎn)型和智能升級必談AI，AI在人們?nèi)粘Ｉ畹闹械漠a(chǎn)品和應用也隨處可見，如智能音箱、AI相機、人臉支付等。但是，爆炸式增長的數(shù)據(jù)量、復雜的訓練框架和算法，讓很多企業(yè)現(xiàn)有的AI計算平臺變得捉襟見肘：計算效率無法滿足業(yè)務增加訴求，運營運維成本也居高不下。華為云AI容器為客戶提供更高性價比的算力，更簡化了平臺運維，提升AI計算效率50%，加速了AI計算在各行業(yè)的落地和發(fā)展。

如今，企業(yè)的數(shù)字化轉(zhuǎn)型和智能升級必談AI，AI在人們?nèi)粘Ｉ畹闹械漠a(chǎn)品和應用也隨處可見，如智能音箱、AI相機、人臉支付等。

但是，爆炸式增長的數(shù)據(jù)量、復雜的訓練框架和算法，讓很多企業(yè)現(xiàn)有的AI計算平臺變得捉襟見肘：計算效率無法滿足業(yè)務增加訴求，運營運維成本也居高不下。

華為云AI容器為客戶提供更高性價比的算力，更簡化了平臺運維，提升AI計算效率50%，加速了AI計算在各行業(yè)的落地和發(fā)展。

計算量6年增長30萬倍AI平臺擴容成本高

OpenAI分析報告顯示，從2012至2018年的6年時間，AI訓練使用的算力增長了30萬倍，是同時期摩爾定律增長量的5倍。

這意味著，要保持計算速度不變，不能單單依靠芯片能力的升級，還必須增加計算設備投入。而專業(yè)GPU服務器配以高速網(wǎng)絡、高速存儲等設備，單臺平均成本在100萬左右，價格高昂，大部分企業(yè)難以承擔。

系統(tǒng)日趨復雜AI平臺運維難度激增

首先，不同的業(yè)務需要不同的AI訓練框架、模型、加速庫，如何在統(tǒng)一平臺上管理不同的訓練框架和模型，如何將線下訓練快速部署到生產(chǎn)環(huán)境帶來巨大挑戰(zhàn)。

其次，AI訓練和公司業(yè)務使用不同的資源管理工具，使得運維團隊需要掌握和使用多種資源管理工具，保障GPU利用率，增加運維復雜度。

再者，GPU在集群內(nèi)被不同業(yè)務團隊共享，團隊間的資源協(xié)調(diào)也會耗費不少精力。

公有云+容器化：AI計算平臺建設的必選之路

面對上述問題，各企業(yè)開始著手構建基于公有云和容器的AI計算平臺，基于公有云的容器平臺，能給客戶帶來什么樣的好處呢？

更快速的獲取算力資

面對AI計算需要的超大規(guī)模算力，自建IDC擴容周期長、一次性投入大，后期維護成本高，采用公有云，可以即申請即用，快速補充企業(yè)IDC算力的不足，同時具備更低的使用成本、無需關注基礎設施維護、避免資源閑置造成浪費等優(yōu)勢，成為了客戶擴充算力的最佳選擇。

降低日常使用和運維難

用戶搭建深度學習訓練環(huán)境，需要準備帶GPU的機器、安裝Python、TensorFlow、GPU驅(qū)動等，如果要從開發(fā)環(huán)境到測試環(huán)境，再從測試環(huán)境到生成環(huán)境，涉及環(huán)境遷移過程中需要花很大精力來保證環(huán)境的一致性。

容器帶來的標準化打包能力可以提供了絕佳的解決方案，將相關軟件一并打包到鏡像中，一次構建，即可在不同平臺上運行，極大降低安裝、部署的復雜度；同時各容器間相互隔離，可實現(xiàn)多訓練框架并存，而且每一個框架都可以獨立進行升級而不會影響其他業(yè)務，降低的日常運維的難度，讓客戶可以將更多的精力集中在AI訓練上。

但是，我們在與用戶交流過程中發(fā)現(xiàn)，用戶雖然認可公有云+容器的模式，但是在公有云上自建一套容器化的AI計算平臺，對部分用戶仍存在較大的技術門檻，尤其是那些尚未接觸過容器的用戶。

華為云就此推出了面向AI計算場景的容器服務——AI容器，并于2018年在華為全聯(lián)接大會發(fā)布，今年我們對AI容器進行了升級，在性能、易用性、可運維等方面都有了很大的提升。

華為云AI容器：更易使用和運維提升AI計算效率50%**

開箱即用免除基礎設施運

AI容器采用華為云容器實例（CCI）作為基礎設施層，得益于CCI的Serverless架構，用戶完全無需關心主機的創(chuàng)建、管理、運維，而只需要在使用時申請所需要的算力資源即可（算力類型、CPU核數(shù)、內(nèi)存量），省去了基礎設施的日常運維工作，用戶可以更加專注于AI計算本身。

更快速的獲取算力資

AI容器基于全新的Volcano平臺進行任務調(diào)度管理，Volcano是華為云高性能批量計算平臺，具有更高的調(diào)度性能，最高可達1000容器/秒，將算力獲取的效率提升近10倍。

同時，有了Volcano的加持，AI容器還可以基于拓撲和資源親和進行任務調(diào)度，根據(jù)策略將關聯(lián)任務調(diào)度到同一物理節(jié)點或二層網(wǎng)絡內(nèi)，極大的提升了AI訓練過程中任務間通信及數(shù)據(jù)交互的效率。

秒級計費資源性價比更高

AI訓練時客戶需要快速、多次計算進行迭代，會對資源進行頻繁的申請、釋放，AI容器采用按秒計費和套餐包的計費方式，真正做到按使用付費（PAYU），避免客戶采用包周期等方式購買資源后，利用率不足而造成的浪費。

開放生態(tài)支持主流訓練框

隨著AI平臺容器化的深入，大量訓練框架都已發(fā)布其容器版本，AI容器目前已支持Tensorflow,Caffe,Mxnet,Pytorch,MindSpore等近十種主流訓練框架，用戶可以將訓練代碼平滑的遷移上云。

多樣算力用戶選擇更加靈活

AI容器的能提供昇騰、鯤鵬、x86和GPU等類型的算力資源，用戶可以實現(xiàn)一套平臺運行不同類型的應用，根據(jù)應用特點靈活選擇算力資源，達到資源的最優(yōu)配置。

立即登錄，閱讀全文

AI 華為云

上一篇：TikTok廣告投放實際操作如何