阿里云飛天AI加速器+Serverless容器 幫助圖森未來提升資源利用率

來源:云棲號
作者:云棲號
時間:2020-08-04
2624
阿里云的飛天AI加速器AIACC團隊,針對圖森未來的場景做了深度優(yōu)化,將訓(xùn)練性能提升了將近60%,大大縮短了圖森未來的模型優(yōu)化時間,加速模型迭代,提高技術(shù)門檻。飛天AI加速器是AIACC業(yè)界首個統(tǒng)一加速,Tensorflow、MXNet、Caffe、PyTorch等主流深度學(xué)習(xí)框架的加速引擎,拿下斯坦福深度學(xué)習(xí)榜單Dawnbench圖像識別四個世界第一。

49e5564c90104b6e9155d2cf9573eb38.jpg

圖森未來(TuSimple)成立于2015年,是一家專注于L4級無人駕駛卡車技術(shù)研發(fā)與應(yīng)用的人工智能企業(yè),已經(jīng)實現(xiàn)卡車在干線物流場景和半封閉樞紐場景下的無人干預(yù)駕駛。圖森未來品牌旗下產(chǎn)品——圖森未來L4級別無人駕駛卡車能夠?qū)崿F(xiàn)環(huán)境感知、定位導(dǎo)航、決策控制等自動駕駛核心功能,可應(yīng)用于高速公路貨運和港內(nèi)集裝箱碼頭運輸及其相似場景。

公司于2019年9月完成總額2.15億美元D輪融資,資方:UPS、鼎暉資本、萬都中國、累計融資超過3億美元,最新估值超過12億美元,是卡車無人駕駛頭部企業(yè),也是全球第一家無人駕駛卡車獨角獸企業(yè)。

圖森未來的業(yè)務(wù)主要在美國和國內(nèi)兩地展開,在美國主要是高速公路干路貨運場景,國內(nèi)業(yè)務(wù)開始以連接樞紐場景的干線物流貨運為主。

在美國,圖森未來已經(jīng)向包括UPS、USPS、McLane、U.S.Xpress在內(nèi)的18家客戶提供無人駕駛物流服務(wù)。

今年年初,圖森未來的無人駕駛卡車還上了“鋼鐵俠”的扮演者小羅伯特·唐尼主持的科技聚集劇集《The Age of A.I.》(《AI時代》),在劇中不僅順利完成無人駕駛的行駛?cè)蝿?wù),還與圍追堵截的攝像車“斗智斗勇”,在攝像車各種找拍攝角度的情況下,自動自我調(diào)整,化險為夷,避讓既禮貌又安全。

國內(nèi)方面,2018年10月,圖森未來拿到國內(nèi)第一張針對無人駕駛卡車在公開道路測試的測試牌照。依托上海市政府的政策支持,以及臨港片區(qū)真實場景的需求,圖森未來的無人駕駛卡車已經(jīng)在東海大橋上進行了長時間的測試,截至2020年7月,累計測試?yán)锍桃殉^5萬公里,具備了在東海大橋上不需要接管的無人駕駛能力。

在北京,圖森未來攜手北汽福田、首發(fā)集團等合作伙伴,實現(xiàn)了在京禮高速(延崇北京段)總長14公里(包括9.8公里連續(xù)特長隧道群路段)的三車無人駕駛隊列跟弛測試,順利完成中國首次高速公路全封閉環(huán)境下、基于C-V2X車路協(xié)同技術(shù)的隊列跟馳測試工作。

飛天AI加速器提升訓(xùn)練性能,加速模型迭代

一臺車自動駕駛卡車,兩個星期會產(chǎn)生大約50TB的數(shù)據(jù)。圖森未來目前有超過70臺卡車在上路,意味著每天有大量的數(shù)據(jù)產(chǎn)生。為了讓自動駕駛卡車更聰明,就需要不斷地積累更多的真實數(shù)據(jù)集訓(xùn)練它目標(biāo)檢測與物體識別框架的能力。

隨著業(yè)務(wù)高速發(fā)展,迭代越來越快,圖森未來的模型也越來越復(fù)雜。每次模型迭代,都需要短時間調(diào)度大規(guī)模的GPU資源來分布式地進行模型訓(xùn)練。

然而,GPU服務(wù)器采購成本高,運維復(fù)雜,圖森未來不得不投入越來越多的精力到運維工作中;更重要的是,圖森未來發(fā)現(xiàn),隨著所用GPU數(shù)量增長,GPU的利用率卻并不高。

為什么會這樣?理論上來說,GPU卡越多,整體算力越大,但是隨著機器數(shù)的增加,不同機器的GPU之間的配合難度會越來越大,單張GPU卡的利用率反而會下降。所以增加了幾十倍的卡的成本,但是性能卻很難隨之線性增長。

阿里云的飛天AI加速器AIACC團隊,針對圖森未來的場景,在底層針對通訊、計算、時延和帶寬等做了深度優(yōu)化,將訓(xùn)練性能提升了將近60%,大大縮短了圖森未來的模型優(yōu)化時間,加速模型迭代,提高技術(shù)門檻。

飛天AI加速器是AIACC業(yè)界首個統(tǒng)一加速,Tensorflow、MXNet、Caffe、PyTorch等主流深度學(xué)習(xí)框架的加速引擎,拿下斯坦福深度學(xué)習(xí)榜單Dawnbench圖像識別四個世界第一。

Serverless容器,提升仿真測試效率,縮短60%模型測試時間

每次迭代的模型訓(xùn)練完成之后,圖森未來需要對優(yōu)化后的模型進行測試。如果每次都要上路測試,成本大、風(fēng)險高、而且不能驗證各種極端情況。

幸虧,圖森未來有個汽車仿真平臺,模擬在各種環(huán)境下(例如:晴天、陰天、雨天、霧霾天、夜晚),模型的處理能力。

這種測試任務(wù)依賴開發(fā)人員的開發(fā)節(jié)奏,具有突發(fā)、臨時、短期的特征,并且需要的算力規(guī)模非常大,如果包年包月地購買海量算力,則很多時候都處于閑置狀態(tài),需求來了可能算力又不夠用,仿真模擬任務(wù)需要排隊完成,影響開發(fā)人員的開發(fā)效率和模型的迭代速度。

由于圖森未來的整體業(yè)務(wù)架構(gòu)早已實現(xiàn)容器化,為這類臨時高峰場景做好了敏捷的業(yè)務(wù)儲備。通過阿里云ASK(Alibaba Cloud Serverless Kubernetes)容器服務(wù),圖森未來可以在需要測試的時候,在阿里云上秒級啟動大規(guī)模的容器集群,即刻獲取海量算力,縮短了60%的模型測試時間;完成測試之后迅速釋放算力,避免資源浪費。

阿里云ASK是Serverless免運維的K8s容器服務(wù),底層使用阿里云ECI(Elastic Container Instance彈性容器實例)作為容器計算基礎(chǔ)設(shè)施,提供高彈性、低成本、免運維的Serverless容器運行環(huán)境,免去用戶對容器集群的運維和容量規(guī)劃工作,大大節(jié)省了圖森未來運維的工作量。

另外,ASK的計費粒度精確到秒,非常適用于仿真計算這類突發(fā)的高并發(fā)短時任務(wù);針對長期的訓(xùn)練任務(wù),圖森未來則使用包年包月的ACK(Alibaba Cloud Kubernetes)。通過適用于長短任務(wù)的ACK+ASK產(chǎn)品搭配,即提升了圖森未來的資源利用率,又節(jié)省了成本。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:云棲號
版權(quán)說明:本文內(nèi)容來自于云棲號,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多