十多年來,組織一直在采用數(shù)據(jù)湖來克服數(shù)據(jù)倉庫的技術限制,并逐步向更以數(shù)據(jù)驅(qū)動的實體發(fā)展。雖然許多組織利用數(shù)據(jù)湖探索新的數(shù)據(jù)使用案例并改進了數(shù)據(jù)驅(qū)動方法,但其他組織發(fā)現(xiàn)很難獲得所承諾的收益。因此,許多數(shù)據(jù)湖計劃的效率和投資回報率受到了質(zhì)疑。
規(guī)避陷阱:當數(shù)據(jù)湖變成“數(shù)據(jù)沼澤”
隨著一些組織在管理大量數(shù)據(jù)存儲和避免“數(shù)據(jù)沼澤”方面面臨挑戰(zhàn),科技界對數(shù)據(jù)湖的看法已經(jīng)發(fā)生了變化。在“數(shù)據(jù)沼澤”中,數(shù)據(jù)雖然被存儲但未被使用。這些“數(shù)據(jù)沼澤”是大型存儲庫,數(shù)據(jù)被無差別地傾倒其中,導致可發(fā)現(xiàn)性和可用性問題。集中化管理可能會造成瓶頸,從而減慢訪問和分析速度,但如果缺乏嚴格的治理,數(shù)據(jù)質(zhì)量會迅速惡化。此外,對于數(shù)據(jù)湖實行一刀切辦法,實際無法滿足不同業(yè)務領域的具體需求。由于缺乏適當?shù)墓ぞ呋驍?shù)據(jù)本身的復雜性,用戶難以從數(shù)據(jù)湖中提取價值,使得數(shù)據(jù)湖的潛力往往無法充分發(fā)揮。
數(shù)據(jù)生產(chǎn)者與消費者:組織鴻溝
這些問題的根源在于數(shù)據(jù)生產(chǎn)者和消費者與中央數(shù)據(jù)湖團隊之間的組織互動。數(shù)據(jù)生產(chǎn)者往往更傾向于開發(fā)新的應用程序功能,而不是提供可用于分析用例的數(shù)據(jù)。他們專注于事務性而非分析性工作負載,這意味著他們共享的數(shù)據(jù)質(zhì)量無法保證。有時,甚至會與數(shù)據(jù)消費者脫節(jié),導致生產(chǎn)內(nèi)容與需求不匹配。
對于數(shù)據(jù)湖團隊,需要應對大量數(shù)據(jù)源,必須執(zhí)行復雜的技術維護,并不斷衡量決策優(yōu)先級的變化。由于分析能力有限且與數(shù)據(jù)生產(chǎn)者脫節(jié),消費者對缺乏透明度、不清晰的價值以及需求優(yōu)先級被低估而感到沮喪。數(shù)據(jù)消費者和生產(chǎn)者通常不會直接互動,這種溝通被數(shù)據(jù)湖的代理組織所分隔,因為所有數(shù)據(jù)都集中存儲在那里。
通過數(shù)據(jù)網(wǎng)格賦能團隊:
通往分布式數(shù)據(jù)生態(tài)系統(tǒng)
科技界的討論已轉向一種更細致入微且可適應的數(shù)據(jù)策略,即數(shù)據(jù)網(wǎng)格,它旨在通過推廣分布式、以人為本和特定于上下文的數(shù)據(jù)管理方式,來克服集中式數(shù)據(jù)湖的一些局限性。
數(shù)據(jù)網(wǎng)格是解決集中化問題的另一種方法。它將分析數(shù)據(jù)的責任分配給構建和運行應用程序并產(chǎn)生事務數(shù)據(jù)的特定領域團隊,例如電子商務團隊,以及那些消費數(shù)據(jù)并用于獲取洞見的團隊。例如,擁有網(wǎng)店結賬頁面將銷售數(shù)據(jù)存儲在事務數(shù)據(jù)庫中的團隊,比如營銷或財務團隊,負責為分析、報告生成式AI與機器學習用例提供銷售數(shù)據(jù)。數(shù)據(jù)網(wǎng)格使消費者更容易、更簡單地使用這些分析數(shù)據(jù)。
這不僅僅是實現(xiàn)另一個接口——數(shù)據(jù)被作為獨立的數(shù)據(jù)產(chǎn)品提供,為實際消費者帶來特定利益。這種數(shù)據(jù)產(chǎn)品由特定數(shù)據(jù)及其元數(shù)據(jù)、準備和交付數(shù)據(jù)所需的源代碼、必要的測試和生產(chǎn)基礎設施(IaC)及其配置組成。
培養(yǎng)數(shù)據(jù)素養(yǎng):
在數(shù)據(jù)網(wǎng)格團隊中引入新角色
創(chuàng)建和使用數(shù)據(jù)的團隊,有可能會缺乏開發(fā)和管理分析數(shù)據(jù)的專業(yè)知識。然而,他們對數(shù)據(jù)的業(yè)務背景有深入的了解,這是非常寶貴的。在數(shù)據(jù)網(wǎng)格框架中,通過培養(yǎng)這些團隊實施分析用例至關重要。這包括為現(xiàn)有成員提供大量培訓,并創(chuàng)建額外的專門角色。其中,兩個關鍵角色至關重要:數(shù)據(jù)產(chǎn)品負責人負責指導數(shù)據(jù)的戰(zhàn)略方向;數(shù)據(jù)工程師則負責構建和管理這些數(shù)據(jù)產(chǎn)品的技術方面。
數(shù)據(jù)產(chǎn)品負責人是以業(yè)務為導向的數(shù)據(jù)人員,他們從事務和分析的角度了解業(yè)務領域,直接與數(shù)據(jù)產(chǎn)品的消費者溝通,并定義產(chǎn)品及其戰(zhàn)略和路線圖。
數(shù)據(jù)工程師在數(shù)據(jù)工程和數(shù)據(jù)科學方面是全面的通才,在業(yè)務所需的某個數(shù)據(jù)相關領域擁有更深的專業(yè)知識。該角色構建實際的數(shù)據(jù)產(chǎn)品,也是其他團隊提出技術問題的對接人。
為成功奠定基礎:
數(shù)據(jù)網(wǎng)格平臺
為充分發(fā)揮數(shù)據(jù)網(wǎng)格的潛力,我建議將這兩個角色直接嵌入到生產(chǎn)和消費團隊中。一種有效但次優(yōu)的變體(因為它重新引入了代理團隊)是為每個業(yè)務領域(如電子商務)建立一個獨立的數(shù)據(jù)網(wǎng)格團隊。數(shù)據(jù)網(wǎng)格平臺為生產(chǎn)者和消費者提供支持,使他們的工作更加高效。數(shù)據(jù)網(wǎng)格平臺團隊不創(chuàng)建數(shù)據(jù)產(chǎn)品,也不存儲或處理數(shù)據(jù)。
數(shù)據(jù)網(wǎng)格平臺有三個角色:
1.提供數(shù)據(jù)目錄、訪問控制、CI/CD管道、監(jiān)控以及預備開發(fā)和測試環(huán)境等工具和基礎設施;
2.培訓和指導生產(chǎn)者和消費者,必要時通過額外的開發(fā)能力為他們提供支持;
3.以聯(lián)邦方式制定必須在整個組織內(nèi)遵守的通用標準和程序。
數(shù)據(jù)網(wǎng)格平臺的使命是為生產(chǎn)者和消費者提供簡單、高效、無壓力的環(huán)境。
但是,成功且可持續(xù)地運行平臺并不容易。我在博客文章中總結了我的經(jīng)驗,內(nèi)容是如何建立有效支持開發(fā)團隊的平臺。