Azure數據目錄是完全托管的云服務。有了它,用戶可以發(fā)現(xiàn)所需的數據源并理解所找到的數據源。同時,數據目錄還可幫助組織從其現(xiàn)有投資中獲取更多價值。
借助數據目錄,任何用戶(分析人員、數據科學家或開發(fā)者)都可以發(fā)現(xiàn)、了解和使用數據源。數據目錄包含元數據和批注的眾包模型。它是供組織的所有用戶貢獻其知識和構建數據社區(qū)和文化的一個集中位置。
數據使用者面臨的數據發(fā)現(xiàn)難題
一直以來,發(fā)現(xiàn)企業(yè)數據源都是基于部落知識的有機過程。對于想要從其信息資產中獲取最大價值的公司,這種方法存在許多挑戰(zhàn):
·用戶可能并不知道數據源的存在,除非在另一個過程中與之接觸。不存在一個統(tǒng)一注冊數據源的位置。
·除非用戶知道數據源的位置,否則其無法使用客戶端應用程序連接到數據。要使用數據,用戶需要知道連接字符串或路徑。
·除非用戶知道數據源的文檔的位置,否則其無法了解數據的預期用途。數據源和文檔可能位于各種位置,并通過各種方式使用。
·如果用戶對信息資產有疑問,他們必須找到負責數據的專家或團隊,并在線下向其進行咨詢。數據與對其用途持有特定觀點的專家之間沒有明顯聯(lián)系。
·除非用戶了解請求訪問數據源的過程,否則,發(fā)現(xiàn)數據源及其文檔仍無助于訪問數據。
數據生成者面臨的數據發(fā)現(xiàn)難題
雖然數據使用者面臨上述難題,負責生成和維護信息資產的用戶也面臨著自身的難題:
·使用描述性元數據批注數據源通常是徒勞的。客戶端應用程序通常會忽略存儲在數據源中的說明。
·為數據源創(chuàng)建文檔通常也是徒勞的。讓文檔與數據源保持同步是一項需要持續(xù)進行的工作。用戶可能對視為過期的文檔缺少信任。
·創(chuàng)建和維護數據源的文檔非常復雜且耗時。為了讓使用數據源的每個用戶可隨時獲取文檔,面臨的挑戰(zhàn)可能更加艱巨。
·限制對數據源的訪問,確保數據使用者知道如何請求訪問是一個持續(xù)性的挑戰(zhàn)。
這些挑戰(zhàn)共同形成巨大的障礙,使得公司難以鼓勵和推動企業(yè)數據的使用及了解。
Azure數據目錄的幫助
數據目錄旨在解決這些問題,并幫助企業(yè)充分利用現(xiàn)有的信息資產。數據目錄可幫助管理數據的用戶更輕松地發(fā)現(xiàn)和理解數據源。
數據目錄提供基于云的服務,可在其中注冊數據源。數據保留在現(xiàn)有位置,但其元數據的副本將連同數據源位置的引用一起添加到數據目錄。此元數據還會編制索引,方便通過搜索功能輕松發(fā)現(xiàn)每個數據源,并讓發(fā)現(xiàn)數據源的用戶理解該數據源。
注冊數據源之后,可以充實其元數據。注冊數據源的用戶或企業(yè)中的其他用戶可以添加元數據。任何用戶都可以提供描述、標記或其他元數據(例如請求數據源訪問權限的文檔和過程)來批注數據源。此描述性元數據可補充從數據源注冊的結構化元數據(例如列名和數據類型)。
注冊源的主要目的是發(fā)現(xiàn)和理解數據源及其用途。企業(yè)用戶可能需要用于商業(yè)智能、應用程序開發(fā)、數據科學或需要正確數據的任何其他任務的數據。他們可以使用“數據目錄發(fā)現(xiàn)”體驗快速查找符合其需求的數據、了解數據以評估其適用性,并通過在其所選工具中打開數據源來使用數據。
與此同時,用戶還可通過對已注冊的數據源進行標記、記錄和批注來參與目錄。他們還可以注冊新的數據源,隨后目錄用戶的社區(qū)可以發(fā)現(xiàn)、了解和使用這些數據源。