什么是 Azure 開放數(shù)據(jù)集?如何使用它們?

來源: Microsoft Azure
作者:Microsoft Azure
時間:2020-12-03
17194
Azure開放數(shù)據(jù)集是精選公共數(shù)據(jù)集,可用于將方案專屬特征添加到機器學(xué)習(xí)解決方案,以提高模型的準確度。

Azure開放數(shù)據(jù)集是精選公共數(shù)據(jù)集,可用于將方案專屬特征添加到機器學(xué)習(xí)解決方案,以提高模型的準確度。開放數(shù)據(jù)集位于云中的Microsoft Azure上并已集成到Azure機器學(xué)習(xí)中,隨時可供Azure Databricks和機器學(xué)習(xí)工作室(經(jīng)典版)使用。也可以通過API訪問數(shù)據(jù)集,并在Power BI和Azure數(shù)據(jù)工廠等其他產(chǎn)品中使用它們。

數(shù)據(jù)集包括不受任何限制的天氣、人口普查、節(jié)假日、公共安全和位置數(shù)據(jù),有助于定型機器學(xué)習(xí)模型和擴充預(yù)測解決方案。還可以共享Azure開放數(shù)據(jù)集中的公共數(shù)據(jù)集。

open-datasets-components.png

Azure開放數(shù)據(jù)集組件

準備的精選數(shù)據(jù)集

Azure開放數(shù)據(jù)集中的精選開放公共數(shù)據(jù)集更適合用于機器學(xué)習(xí)工作流。

若要查看所有可用的數(shù)據(jù)集,請參閱Azure開放數(shù)據(jù)集目錄。

數(shù)據(jù)科學(xué)家通常將大部分時間花在清理和準備數(shù)據(jù)上,以執(zhí)行高級分析。為了節(jié)省你的時間,開放數(shù)據(jù)集復(fù)制到Azure云中,并經(jīng)過預(yù)處理。系統(tǒng)將按固定的間隔從源提取數(shù)據(jù),例如,通過與美國海洋與大氣管理局(NOAA)建立FTP連接來提取數(shù)據(jù)。接下來,將數(shù)據(jù)分析成結(jié)構(gòu)化格式,然后使用各種特征(例如最靠近的氣象站的郵政編碼或位置)相應(yīng)地擴充這些數(shù)據(jù)。

數(shù)據(jù)集通過Azure中的云計算共同托管,簡化了訪問和操作。

下面展示了可用數(shù)據(jù)集示例。

微信圖片_20201203100558.png

訪問數(shù)據(jù)集

借助Azure帳戶,可以使用代碼或通過Azure服務(wù)界面訪問開放數(shù)據(jù)集。數(shù)據(jù)與Azure云計算資源共置在一起,以供用于機器學(xué)習(xí)解決方案。

開放數(shù)據(jù)集通過Azure機器學(xué)習(xí)UI和SDK提供。開放數(shù)據(jù)集還提供Azure Notebooks和Azure Databricks筆記本,可用于將數(shù)據(jù)連接到Azure機器學(xué)習(xí)和Azure Databricks。也可以通過Python SDK訪問數(shù)據(jù)集。

不過,無需使用Azure帳戶,即可訪問開放數(shù)據(jù)集;可以在含或不含Spark的任意Python環(huán)境中訪問它們。

請求獲取或參與數(shù)據(jù)集

如果找不到所需的數(shù)據(jù),請向我們發(fā)送電子郵件,以請求獲取數(shù)據(jù)集或參與數(shù)據(jù)集。

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于Microsoft Azure,本站不擁有所有權(quán),不承擔相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼登錄
打開掃一掃, 關(guān)注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家