機器學習正變得越來越主流,但它仍處于行業(yè)發(fā)展的早期。
為了創(chuàng)建機器學習模型,開發(fā)人員需要從高度手動的數(shù)據(jù)準備過程開始,經(jīng)過可視化、選擇算法、設(shè)置框架、訓練模型、調(diào)整數(shù)百萬個可能的參數(shù)、部署模型并監(jiān)視其性能,這個過程往往需要重復多次。
Amazon SageMaker改變了這一點。
Amazon SageMaker是一項完全托管的服務(wù),可消除機器學習過程各個階段的挑戰(zhàn),從而使日常開發(fā)人員和數(shù)據(jù)科學家能夠更加輕松快捷地構(gòu)建、訓練和部署機器學習模型。目前數(shù)以萬計的客戶利用SageMaker加速機器學習部署。
AWS大中華區(qū)云服務(wù)產(chǎn)品管理總經(jīng)理顧凡表示,AWS機器學習服務(wù)的特點主要有三:
其一,整個機器學習服務(wù)的寬度和深度,AWS倡導Right tools for the right job(合適的工具做合適的事兒,一把鑰匙開一把鎖),無論客戶運行什么樣的工作,在什么樣的場景下,工具箱就應(yīng)該有最適合的工具。
其二,AWS在云計算以及在機器學習領(lǐng)域始終懷抱開放心態(tài),可以跟客戶的生產(chǎn)環(huán)境做到非常好的集成。
其三,AWS堅持兩個原則,一個原則是“授人以魚不如授人以漁”,AWS更多希望幫助客戶建立能力,提供并教會客戶使用工具。“第二是在產(chǎn)品原型實現(xiàn)、客戶需要幫忙的時候,我們會幫客戶‘扶上馬再送一程’,真正幫他快速的把一些業(yè)務(wù)難題,先用產(chǎn)品原型的方式把它實現(xiàn)出來”,顧凡表示。
SageMaker則充分體現(xiàn)了AWS機器學習的優(yōu)勢,成為AWS歷史增長最快的服務(wù)之一,過去一年SageMaker發(fā)布了接近50個新功能。在2020 AWSre:Invent上,SageMaker再次推出九項新功能,包括更快的數(shù)據(jù)準備,專用于準備數(shù)據(jù)的存儲庫,工作流自動化,訓練數(shù)據(jù)更大的透明度以減輕偏差和解釋預(yù)測,分布式訓練功能將大型模型的訓練速度提高兩倍,以及在邊緣設(shè)備上進行模型監(jiān)控等功能。
今年SageMaker迭代的主要思路在哪?
首先是幫助企業(yè)客戶快速從原始數(shù)據(jù)轉(zhuǎn)化成模型里面的核心特征,企業(yè)不再需要使用大量代碼開發(fā)。
無論是單一特征還是復合特征,怎么把原始數(shù)據(jù)不同的數(shù)據(jù)源、不同的格式,快速地提取特征,這是AWS Data Wrangler所要解決的。它預(yù)制了超過300個數(shù)據(jù)轉(zhuǎn)換模板,可以一鍵對接Amazon Athena、Amazon S3、Amazon Redshift。
其次,在訓練和推理這兩個場景當中,企業(yè)對特征數(shù)據(jù)的使用和訪問延遲都不一樣,在訓練時候希望所有特征數(shù)據(jù)都放進去,使得模型更準確,在推理時只需一個小子集的輸入判斷預(yù)測結(jié)果。
SageMaker推出了新功能Amazon SageMaker Feature Store來徹底解決這個問題。Feature Store是一個集中的、專門為特征存儲開發(fā)的存儲工具,而這個工具既可以解決特征的一致性問題,在訓練和預(yù)測方面兩邊用的都是同一套特征。又能解決訓練和預(yù)測針對特征數(shù)據(jù)存儲不一樣的需求。一套工具在滿足延遲的同時,也能夠滿足針對訓練方面大批量加載更多特征數(shù)據(jù)的需求。
如果統(tǒng)計數(shù)據(jù)本身存在偏差,如何更早發(fā)現(xiàn)?這就是Amazon SageMaker Clarify的目標。SageMakerClarify能夠在機器學習整個工作流中鑒別由于數(shù)據(jù)統(tǒng)計產(chǎn)生的偏差,同時SageMaker升級了Debugger工具,新增Deep Profiling功能,實現(xiàn)CPU、GPU、IO、內(nèi)存等資源使用情況的可視化。
“SageMaker始終沿著兩個方向迭代,一個就是每一個步驟做得越來越細、做得越來越易用。另外就是怎么把復雜的機器學習的工作流串聯(lián)起來。SageMaker在每一步給到更多的工具,同時將這些步驟點對點聯(lián)接,使得工作流更加自動化,反復迭代,反復演進。”顧凡說道。