使用Amazon SageMaker特征存放區(qū)存儲(chǔ)、發(fā)現(xiàn)和共享機(jī)器學(xué)習(xí)特性!

來源: 亞馬遜云科技
作者:亞馬遜云科技
時(shí)間:2021-04-13
17264
4月9日,我們非常高興地宣布推出Amazon SageMaker特征存放區(qū),這是Amazon SageMaker的一項(xiàng)新功能,可幫助數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師輕松、安全地存儲(chǔ)、發(fā)現(xiàn)和共享訓(xùn)練和預(yù)測工作流程中使用的精選數(shù)據(jù)。

1618284779(1).png

4月9日,我們非常高興地宣布推出Amazon SageMaker特征存放區(qū),這是Amazon SageMaker的一項(xiàng)新功能,可幫助數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師輕松、安全地存儲(chǔ)、發(fā)現(xiàn)和共享訓(xùn)練和預(yù)測工作流程中使用的精選數(shù)據(jù)。

選擇正確的算法來訓(xùn)練機(jī)器學(xué)習(xí)(ML)模型固然非常重要,但經(jīng)驗(yàn)豐富的從業(yè)人員深知為其提供高質(zhì)量數(shù)據(jù)的重要性。清理數(shù)據(jù)是很好的開始,機(jī)器學(xué)習(xí)工作流程通常包括填充缺失值、刪除異常值等步驟。然后,通常需要繼續(xù)使用常用技術(shù)和名為特征工程的高端技術(shù)來轉(zhuǎn)換數(shù)據(jù)。

簡而言之,特征工程的目的是轉(zhuǎn)換數(shù)據(jù)并增強(qiáng)其可表達(dá)性,以便算法可以更好地學(xué)習(xí)。例如,許多列式數(shù)據(jù)集都包含字符串,例如街道地址。對于大多數(shù)機(jī)器學(xué)習(xí)算法來說,字符串毫無意義,它們需要以數(shù)字表示形式進(jìn)行編碼。因此,您可以用GPS坐標(biāo)替換街道地址,這是一種可表達(dá)性更高的方式,更利于學(xué)習(xí)定位概念。換句話說,如果數(shù)據(jù)是新的油類,那么特征工程就是將其提煉為高辛烷值噴氣燃料的過程,從而幫助模型達(dá)到極高的精度。

事實(shí)上,機(jī)器學(xué)習(xí)從業(yè)人員花費(fèi)了大量時(shí)間來制作特征工程代碼、將其應(yīng)用于初始數(shù)據(jù)集、在工程數(shù)據(jù)集上訓(xùn)練模型以及評估模型準(zhǔn)確性。鑒于這項(xiàng)工作的實(shí)驗(yàn)性質(zhì),即使是最小的項(xiàng)目也會(huì)導(dǎo)致發(fā)生多次迭代。相同的特征工程代碼通常會(huì)反復(fù)運(yùn)行,這會(huì)浪費(fèi)時(shí)間和計(jì)算資源來重復(fù)相同的操作。在大型組織中,這可能導(dǎo)致更大的生產(chǎn)力損失,因?yàn)椴煌膱F(tuán)隊(duì)通常運(yùn)行相同的作業(yè),甚至因?yàn)樗麄儾涣私庵暗墓ぷ?,而去編寫重?fù)的特征工程代碼。

機(jī)器學(xué)習(xí)團(tuán)隊(duì)還必須解決另一個(gè)難題。由于模型是基于工程數(shù)據(jù)集訓(xùn)練的,因此必須對那些發(fā)送以用于預(yù)測的數(shù)據(jù)應(yīng)用相同的轉(zhuǎn)換。這通常意味著會(huì)重寫特征工程代碼(有時(shí)會(huì)使用另一種語言),將其集成到預(yù)測工作流程中,然后在預(yù)測時(shí)運(yùn)行這些代碼。整個(gè)過程不僅耗時(shí),還可能導(dǎo)致出現(xiàn)不一致,因?yàn)榧词故菙?shù)據(jù)轉(zhuǎn)換中最微小的變化也可能對預(yù)測產(chǎn)生巨大影響。

為了解決這些問題,機(jī)器學(xué)習(xí)團(tuán)隊(duì)有時(shí)會(huì)構(gòu)建一個(gè)特征存放區(qū),這是一個(gè)中央存儲(chǔ)庫,他們可以在其中保存和檢索訓(xùn)練和預(yù)測作業(yè)中使用的工程數(shù)據(jù)。盡管特征存放區(qū)非常實(shí)用,但構(gòu)建和管理您自己的特征存放區(qū)需要執(zhí)行大量的工程設(shè)計(jì)、基礎(chǔ)設(shè)施和運(yùn)營工作,這會(huì)花費(fèi)本該用于機(jī)器學(xué)習(xí)工作的寶貴時(shí)間。客戶要求我們提供更好的解決方案,我們做到了!

推出Amazon SageMaker特征存放區(qū)

Amazon SageMaker特征存放區(qū)是適用于您的機(jī)器學(xué)習(xí)特征的完全托管的集中式存儲(chǔ)庫,可幫助您輕松、安全地存儲(chǔ)和檢索特征,而無需管理任何基礎(chǔ)設(shè)施。它是Amazon SageMaker(完全托管的機(jī)器學(xué)習(xí)服務(wù))的一部分,支持所有算法。它還與我們基于Web的機(jī)器學(xué)習(xí)開發(fā)環(huán)境Amazon SageMaker Studio集成。

此外,Amazon SageMaker特征存放區(qū)中存儲(chǔ)的特征已分組,并使用元數(shù)據(jù)進(jìn)行標(biāo)記。因此,您可以快速發(fā)現(xiàn)哪些特征可用,以及它們是否適合您的模型。多個(gè)團(tuán)隊(duì)還可以輕松共享和重復(fù)使用特征,從而降低開發(fā)成本并加速創(chuàng)新。

在存儲(chǔ)后,您可以在模型訓(xùn)練、批量轉(zhuǎn)換和低延遲實(shí)時(shí)預(yù)測等SageMaker工作流程中檢索并使用這些特征。您不僅可以避免重復(fù)工作,還可以構(gòu)建一致的工作流程:使用存儲(chǔ)在離線和在線商店中的相同一致特征。

The Climate Corporation(下文簡稱“Climate”)是Bayer的子公司,在為農(nóng)民提供數(shù)字創(chuàng)新方面,該公司是行業(yè)領(lǐng)導(dǎo)者。

Climate堅(jiān)信能為全世界的農(nóng)民提供準(zhǔn)確的信息,以便他們做出基于數(shù)據(jù)的決策,并最大限度地提高他們的每英畝產(chǎn)出。為了實(shí)現(xiàn)這一目標(biāo),我們投資了機(jī)器學(xué)習(xí)工具等技術(shù),利用名為特征(例如種植者的田地產(chǎn)出)的可衡量實(shí)體來構(gòu)建模型。

借助Amazon SageMaker特征存放區(qū),我們可以通過中央特征存放區(qū)加速機(jī)器學(xué)習(xí)模型的開發(fā),以便在多個(gè)團(tuán)隊(duì)中輕松訪問和重復(fù)使用這些特征。使用Amazon SageMaker特征存放區(qū),可以輕松使用在線商店實(shí)時(shí)訪問特征,或者使用離線商店針對不同的使用案例按計(jì)劃運(yùn)行特征,而且我們可以更快地開發(fā)機(jī)器學(xué)習(xí)模型。

——Climate數(shù)據(jù)和分析副總裁

Daniel McCaffrey

全球領(lǐng)先的高質(zhì)量家庭護(hù)理查找和管理平臺(tái)Care.com也在使用Amazon SageMaker特征存放區(qū)。

一個(gè)供需高度匹配的強(qiáng)大護(hù)理行業(yè)對于個(gè)體家庭乃至國內(nèi)生產(chǎn)總值的經(jīng)濟(jì)增長都至關(guān)重要。我們對Amazon SageMaker特征存放區(qū)和Amazon SageMaker管道充滿期待,我們相信它們將幫助我們在數(shù)據(jù)科學(xué)和開發(fā)團(tuán)隊(duì)中更好地?cái)U(kuò)展,我們可以使用一組一致的精選數(shù)據(jù)構(gòu)建從數(shù)據(jù)準(zhǔn)備到部署的可擴(kuò)展的端到端機(jī)器學(xué)習(xí)模型管道。

利用新發(fā)布的Amazon SageMaker功能,我們可以針對不同的應(yīng)用程序加快開發(fā)和部署機(jī)器學(xué)習(xí)模型,從而能夠通過更快的實(shí)時(shí)建議幫助客戶做出更明智的決策。

——Care.com數(shù)據(jù)科學(xué)經(jīng)理Clemens Tummeltshammer

現(xiàn)在,我們了解一下如何開始使用。

使用Amazon SageMaker

特征存放區(qū)存儲(chǔ)和檢索特征

對數(shù)據(jù)運(yùn)行特征工程代碼后,您可以在Amazon SageMaker特征存放區(qū)中組織和存儲(chǔ)您的工程特征,可將這些特征分為不同的特征組。特征組是記錄的集合,類似于表中的行。每條記錄都有一個(gè)唯一的標(biāo)識(shí)符,并保存原始數(shù)據(jù)源某個(gè)數(shù)據(jù)實(shí)例的設(shè)計(jì)特征值。您還可以選擇使用自己的Amazon Key Management Service(KMS)密鑰加密靜態(tài)數(shù)據(jù),該密鑰對于每個(gè)特征組都是唯一的。

如何定義特征組由您決定。例如,您可以為每個(gè)數(shù)據(jù)源(CSV文件、數(shù)據(jù)庫表等)創(chuàng)建一個(gè)特征組,然后使用便捷的唯一列作為記錄標(biāo)識(shí)符(主鍵、客戶ID、事務(wù)ID等)。

確定組后,應(yīng)該對每個(gè)組重復(fù)執(zhí)行以下步驟:

1.使用記錄中每個(gè)特征的名稱和類型創(chuàng)建特征定義(分?jǐn)?shù)、整型或字符串)。

2.使用create_feature_group()API創(chuàng)建每個(gè)特征組:

3.sm_feature_store.create_feature_group(

4.#特征組的名稱

5.FeatureGroupName=my_feature_group_name,

6.#作為記錄標(biāo)識(shí)符的列的名稱

7.RecordIdentifierName=record_identifier_name,

8.#作為特征時(shí)間戳的列操作的名稱

9.EventTimeFeatureName=event_time_feature_name,

10.#特征名稱和類型列表

11.FeatureDefinitions=my_feature_definitions,

12.#離線特征存放區(qū)的S3位置

13.OfflineStoreConfig=offline_store_config,

14.#可以選擇啟用在線特征存放區(qū)

15.OnlineStoreConfig=online_store_config,

16.#IAM角色

17.RoleArn=role

)

18.在每個(gè)特征組中,使用put_record()API存儲(chǔ)包含一系列特征名稱/特征值對的記錄:

19.sm_feature_store.put_record(

20.FeatureGroupName=feature_group_name,

21.Record=record,

22.EventTime=event_time

)

為了加快提取速度,您可以創(chuàng)建多個(gè)線程,然后并行執(zhí)行此操作。

此時(shí),特征將存儲(chǔ)在Amazon SageMaker特征存放區(qū)中。借助離線存放區(qū),您可以使用Amazon Athena、Amazon Glue或Amazon EMR等服務(wù)構(gòu)建訓(xùn)練數(shù)據(jù)集:在S3中獲取相應(yīng)的JSON對象,選擇所需的特征,然后采用ML算法所需的格式將其保存在S3中。之后,SageMaker像往常一樣運(yùn)作!

此外,您還可以使用get_record()API訪問存儲(chǔ)在在線存放區(qū)中的各條記錄,傳遞要訪問的記錄的組名稱和唯一標(biāo)識(shí)符,如下所示:

record = sm_feature_store.get_record(

    FeatureGroupName=my_feature_group_name,

    RecordIdentifierValue={"IntegralValue": 5962}

)

Amazon SageMaker特征存放區(qū)旨在快速高效地訪問實(shí)時(shí)推理,15KB負(fù)載的P95延遲低于10毫秒。這樣,可以在預(yù)測時(shí)查詢工程特征,并將上游應(yīng)用程序發(fā)送的原始特征替換為用于訓(xùn)練模型的完全相同的特征。在設(shè)計(jì)上,消除了特征不一致問題,從而您可以專注于構(gòu)建最佳模型,而不是追蹤錯(cuò)誤。

最后,由于SageMaker特征存放區(qū)包含特征創(chuàng)建時(shí)間戳,因此您可以檢索特征在特定時(shí)間點(diǎn)的狀態(tài)。

由于Amazon SageMaker特征存放區(qū)與SageMaker Studio集成,因此我可以在SageMaker Studio中看到我的兩個(gè)特征組。

640.webp.jpg

右鍵單擊“打開特征組詳細(xì)信息”,我將打開身份特征組。

640.webp (1).jpg

我可以查看特征定義。

640.webp (2).jpg

最后,我可以為離線存放區(qū)生成查詢,并將這些查詢添加到Amazon SageMaker Data Wrangler工作流程中,以便在訓(xùn)練之前加載特征。

640.webp (3).jpg

如何開始使用

Amazon SageMaker特征存放區(qū)?

正如您所看到的,Amazon SageMaker特征存放區(qū)使您可以輕松存儲(chǔ)、檢索和共享訓(xùn)練和預(yù)測工作流程所需的特征。

提供Amazon SageMaker的所有區(qū)域均提供Amazon SageMaker特征存放區(qū)。定價(jià)基于特征讀取和寫入次數(shù)以及存儲(chǔ)的數(shù)據(jù)總量。這是示例筆記本(網(wǎng)址:https://github.com/aws/amazon-sagemaker-examples),可以幫助您立即開始使用。

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于亞馬遜云科技,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號(hào)登錄/注冊
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家