AWS機(jī)器學(xué)習(xí)平臺SageMaker提升平行運(yùn)算速度

來源: 百家號
作者:十輪網(wǎng)
時間:2020-12-09
17830
在第二周的Re:Invent大會上,AWS宣布機(jī)器學(xué)習(xí)開發(fā)及部署平臺SageMaker運(yùn)用新技術(shù)提升平行運(yùn)算速度,可加速以EC2執(zhí)行實例(instance)對大型資料集訓(xùn)練模型。

574e9258d109b3de6f95ec500c3bda86800a4c68.jpg

在第二周的Re:Invent大會上,AWS宣布機(jī)器學(xué)習(xí)開發(fā)及部署平臺SageMaker運(yùn)用新技術(shù)提升平行運(yùn)算速度,可加速以EC2執(zhí)行實例(instance)對大型資料集訓(xùn)練模型。

隨著機(jī)器學(xué)習(xí)的資料集和模型越來越大、愈來復(fù)雜,也讓機(jī)器學(xué)習(xí)的訓(xùn)練項目花的時間越來越長,即使以Amazon EC2 p3或p4這類GPU執(zhí)行實例服務(wù),用公開資料集COCO(Common Objects in Context)來訓(xùn)練高端對象偵測模型,像是Mask RCNN和Faster RCNN也要花上超過6小時。訓(xùn)練自然語言處理模型BERT更得耗時超過100小時。而像一間全球汽車大廠甚至得在EC2 GPU集群上,花好幾天來進(jìn)行更大型的訓(xùn)練項目。

為解決這個問題,Amazon SageMaker現(xiàn)在支持一種資料平行運(yùn)算函數(shù)庫,名為SageMaker Data Parallelism(SDP)以縮短分布式訓(xùn)練的時間,并降低成本。目前支持TensorFlow和PyTorch兩種框架。

簡單而言,資料平行運(yùn)算,將訓(xùn)練資料集切分成較小的批次,平均分散到所有GPU上處理,每個GPU只訓(xùn)練一小部分資料集,再通過網(wǎng)絡(luò)連接來協(xié)同所有GPU將訓(xùn)練成果集結(jié)起來。但是過去的算法在資料集愈大時就會產(chǎn)生網(wǎng)絡(luò)頻頸。SageMaker Data Parallelism實例了改良的分布式運(yùn)算AllReduce算法,并優(yōu)化網(wǎng)絡(luò)通信,也完全利用EC2 p3及p4 GPU執(zhí)行實例服務(wù)的速度。

在re:Invent 2020大會上,AWS機(jī)器學(xué)習(xí)主管Swami Sivasubramanian示范以最新服務(wù)來訓(xùn)練T5-3B及Mask-RCNN的效果。T5-3B為一高精確性的自然語言處理模型,有30億個參數(shù),AWS宣稱以256個P4執(zhí)行實例,使訓(xùn)練時間由好幾星期縮短為6天。至于Mask-RCNN,AWS去年在PyTorch和TensorFlow上各花了26及27分鐘來訓(xùn)練,而今年則只花了6:45及6:12分鐘。

SageMaker Data Parallelism現(xiàn)在已經(jīng)在各個AWS SageMaker區(qū)域上線,現(xiàn)有客戶無需付費即可激活。

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于百家號,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家