機(jī)器學(xué)習(xí)正變得越來越主流,但它仍處于行業(yè)發(fā)展的早期。
為了創(chuàng)建機(jī)器學(xué)習(xí)模型,開發(fā)人員需要從高度手動(dòng)的數(shù)據(jù)準(zhǔn)備過程開始,經(jīng)過可視化、選擇算法、設(shè)置框架、訓(xùn)練模型、調(diào)整數(shù)百萬個(gè)可能的參數(shù)、部署模型并監(jiān)視其性能,這個(gè)過程往往需要重復(fù)多次。
Amazon SageMaker改變了這一點(diǎn)。
Amazon SageMaker是一項(xiàng)完全托管的服務(wù),可消除機(jī)器學(xué)習(xí)過程各個(gè)階段的挑戰(zhàn),從而使日常開發(fā)人員和數(shù)據(jù)科學(xué)家能夠更加輕松快捷地構(gòu)建、訓(xùn)練和部署機(jī)器學(xué)習(xí)模型。目前數(shù)以萬計(jì)的客戶利用SageMaker加速機(jī)器學(xué)習(xí)部署。
AWS大中華區(qū)云服務(wù)產(chǎn)品管理總經(jīng)理顧凡表示,AWS機(jī)器學(xué)習(xí)服務(wù)的特點(diǎn)主要有三:
其一,整個(gè)機(jī)器學(xué)習(xí)服務(wù)的寬度和深度,AWS倡導(dǎo)Right tools for the right job(合適的工具做合適的事兒,一把鑰匙開一把鎖),無論客戶運(yùn)行什么樣的工作,在什么樣的場(chǎng)景下,工具箱就應(yīng)該有最適合的工具。
其二,AWS在云計(jì)算以及在機(jī)器學(xué)習(xí)領(lǐng)域始終懷抱開放心態(tài),可以跟客戶的生產(chǎn)環(huán)境做到非常好的集成。
其三,AWS堅(jiān)持兩個(gè)原則,一個(gè)原則是“授人以魚不如授人以漁”,AWS更多希望幫助客戶建立能力,提供并教會(huì)客戶使用工具?!暗诙窃诋a(chǎn)品原型實(shí)現(xiàn)、客戶需要幫忙的時(shí)候,我們會(huì)幫客戶‘扶上馬再送一程’,真正幫他快速的把一些業(yè)務(wù)難題,先用產(chǎn)品原型的方式把它實(shí)現(xiàn)出來”,顧凡表示。
SageMaker則充分體現(xiàn)了AWS機(jī)器學(xué)習(xí)的優(yōu)勢(shì),成為AWS歷史增長(zhǎng)最快的服務(wù)之一,過去一年SageMaker發(fā)布了接近50個(gè)新功能。在2020 AWSre:Invent上,SageMaker再次推出九項(xiàng)新功能,包括更快的數(shù)據(jù)準(zhǔn)備,專用于準(zhǔn)備數(shù)據(jù)的存儲(chǔ)庫,工作流自動(dòng)化,訓(xùn)練數(shù)據(jù)更大的透明度以減輕偏差和解釋預(yù)測(cè),分布式訓(xùn)練功能將大型模型的訓(xùn)練速度提高兩倍,以及在邊緣設(shè)備上進(jìn)行模型監(jiān)控等功能。
今年SageMaker迭代的主要思路在哪?
首先是幫助企業(yè)客戶快速從原始數(shù)據(jù)轉(zhuǎn)化成模型里面的核心特征,企業(yè)不再需要使用大量代碼開發(fā)。
無論是單一特征還是復(fù)合特征,怎么把原始數(shù)據(jù)不同的數(shù)據(jù)源、不同的格式,快速地提取特征,這是AWS Data Wrangler所要解決的。它預(yù)制了超過300個(gè)數(shù)據(jù)轉(zhuǎn)換模板,可以一鍵對(duì)接Amazon Athena、Amazon S3、Amazon Redshift。
其次,在訓(xùn)練和推理這兩個(gè)場(chǎng)景當(dāng)中,企業(yè)對(duì)特征數(shù)據(jù)的使用和訪問延遲都不一樣,在訓(xùn)練時(shí)候希望所有特征數(shù)據(jù)都放進(jìn)去,使得模型更準(zhǔn)確,在推理時(shí)只需一個(gè)小子集的輸入判斷預(yù)測(cè)結(jié)果。
SageMaker推出了新功能Amazon SageMaker Feature Store來徹底解決這個(gè)問題。Feature Store是一個(gè)集中的、專門為特征存儲(chǔ)開發(fā)的存儲(chǔ)工具,而這個(gè)工具既可以解決特征的一致性問題,在訓(xùn)練和預(yù)測(cè)方面兩邊用的都是同一套特征。又能解決訓(xùn)練和預(yù)測(cè)針對(duì)特征數(shù)據(jù)存儲(chǔ)不一樣的需求。一套工具在滿足延遲的同時(shí),也能夠滿足針對(duì)訓(xùn)練方面大批量加載更多特征數(shù)據(jù)的需求。
如果統(tǒng)計(jì)數(shù)據(jù)本身存在偏差,如何更早發(fā)現(xiàn)?這就是Amazon SageMaker Clarify的目標(biāo)。SageMakerClarify能夠在機(jī)器學(xué)習(xí)整個(gè)工作流中鑒別由于數(shù)據(jù)統(tǒng)計(jì)產(chǎn)生的偏差,同時(shí)SageMaker升級(jí)了Debugger工具,新增Deep Profiling功能,實(shí)現(xiàn)CPU、GPU、IO、內(nèi)存等資源使用情況的可視化。
“SageMaker始終沿著兩個(gè)方向迭代,一個(gè)就是每一個(gè)步驟做得越來越細(xì)、做得越來越易用。另外就是怎么把復(fù)雜的機(jī)器學(xué)習(xí)的工作流串聯(lián)起來。SageMaker在每一步給到更多的工具,同時(shí)將這些步驟點(diǎn)對(duì)點(diǎn)聯(lián)接,使得工作流更加自動(dòng)化,反復(fù)迭代,反復(fù)演進(jìn)?!鳖櫡舱f道。