十多年來,組織一直在采用數(shù)據(jù)湖來克服數(shù)據(jù)倉庫的技術(shù)限制,并逐步向更以數(shù)據(jù)驅(qū)動的實(shí)體發(fā)展。雖然許多組織利用數(shù)據(jù)湖探索新的數(shù)據(jù)使用案例并改進(jìn)了數(shù)據(jù)驅(qū)動方法,但其他組織發(fā)現(xiàn)很難獲得所承諾的收益。因此,許多數(shù)據(jù)湖計(jì)劃的效率和投資回報(bào)率受到了質(zhì)疑。
規(guī)避陷阱:當(dāng)數(shù)據(jù)湖變成“數(shù)據(jù)沼澤”
隨著一些組織在管理大量數(shù)據(jù)存儲和避免“數(shù)據(jù)沼澤”方面面臨挑戰(zhàn),科技界對數(shù)據(jù)湖的看法已經(jīng)發(fā)生了變化。在“數(shù)據(jù)沼澤”中,數(shù)據(jù)雖然被存儲但未被使用。這些“數(shù)據(jù)沼澤”是大型存儲庫,數(shù)據(jù)被無差別地傾倒其中,導(dǎo)致可發(fā)現(xiàn)性和可用性問題。集中化管理可能會造成瓶頸,從而減慢訪問和分析速度,但如果缺乏嚴(yán)格的治理,數(shù)據(jù)質(zhì)量會迅速惡化。此外,對于數(shù)據(jù)湖實(shí)行一刀切辦法,實(shí)際無法滿足不同業(yè)務(wù)領(lǐng)域的具體需求。由于缺乏適當(dāng)?shù)墓ぞ呋驍?shù)據(jù)本身的復(fù)雜性,用戶難以從數(shù)據(jù)湖中提取價(jià)值,使得數(shù)據(jù)湖的潛力往往無法充分發(fā)揮。
數(shù)據(jù)生產(chǎn)者與消費(fèi)者:組織鴻溝
這些問題的根源在于數(shù)據(jù)生產(chǎn)者和消費(fèi)者與中央數(shù)據(jù)湖團(tuán)隊(duì)之間的組織互動。數(shù)據(jù)生產(chǎn)者往往更傾向于開發(fā)新的應(yīng)用程序功能,而不是提供可用于分析用例的數(shù)據(jù)。他們專注于事務(wù)性而非分析性工作負(fù)載,這意味著他們共享的數(shù)據(jù)質(zhì)量無法保證。有時(shí),甚至?xí)c數(shù)據(jù)消費(fèi)者脫節(jié),導(dǎo)致生產(chǎn)內(nèi)容與需求不匹配。
對于數(shù)據(jù)湖團(tuán)隊(duì),需要應(yīng)對大量數(shù)據(jù)源,必須執(zhí)行復(fù)雜的技術(shù)維護(hù),并不斷衡量決策優(yōu)先級的變化。由于分析能力有限且與數(shù)據(jù)生產(chǎn)者脫節(jié),消費(fèi)者對缺乏透明度、不清晰的價(jià)值以及需求優(yōu)先級被低估而感到沮喪。數(shù)據(jù)消費(fèi)者和生產(chǎn)者通常不會直接互動,這種溝通被數(shù)據(jù)湖的代理組織所分隔,因?yàn)樗袛?shù)據(jù)都集中存儲在那里。
通過數(shù)據(jù)網(wǎng)格賦能團(tuán)隊(duì):
通往分布式數(shù)據(jù)生態(tài)系統(tǒng)
科技界的討論已轉(zhuǎn)向一種更細(xì)致入微且可適應(yīng)的數(shù)據(jù)策略,即數(shù)據(jù)網(wǎng)格,它旨在通過推廣分布式、以人為本和特定于上下文的數(shù)據(jù)管理方式,來克服集中式數(shù)據(jù)湖的一些局限性。
數(shù)據(jù)網(wǎng)格是解決集中化問題的另一種方法。它將分析數(shù)據(jù)的責(zé)任分配給構(gòu)建和運(yùn)行應(yīng)用程序并產(chǎn)生事務(wù)數(shù)據(jù)的特定領(lǐng)域團(tuán)隊(duì),例如電子商務(wù)團(tuán)隊(duì),以及那些消費(fèi)數(shù)據(jù)并用于獲取洞見的團(tuán)隊(duì)。例如,擁有網(wǎng)店結(jié)賬頁面將銷售數(shù)據(jù)存儲在事務(wù)數(shù)據(jù)庫中的團(tuán)隊(duì),比如營銷或財(cái)務(wù)團(tuán)隊(duì),負(fù)責(zé)為分析、報(bào)告生成式AI與機(jī)器學(xué)習(xí)用例提供銷售數(shù)據(jù)。數(shù)據(jù)網(wǎng)格使消費(fèi)者更容易、更簡單地使用這些分析數(shù)據(jù)。
這不僅僅是實(shí)現(xiàn)另一個(gè)接口——數(shù)據(jù)被作為獨(dú)立的數(shù)據(jù)產(chǎn)品提供,為實(shí)際消費(fèi)者帶來特定利益。這種數(shù)據(jù)產(chǎn)品由特定數(shù)據(jù)及其元數(shù)據(jù)、準(zhǔn)備和交付數(shù)據(jù)所需的源代碼、必要的測試和生產(chǎn)基礎(chǔ)設(shè)施(IaC)及其配置組成。
培養(yǎng)數(shù)據(jù)素養(yǎng):
在數(shù)據(jù)網(wǎng)格團(tuán)隊(duì)中引入新角色
創(chuàng)建和使用數(shù)據(jù)的團(tuán)隊(duì),有可能會缺乏開發(fā)和管理分析數(shù)據(jù)的專業(yè)知識。然而,他們對數(shù)據(jù)的業(yè)務(wù)背景有深入的了解,這是非常寶貴的。在數(shù)據(jù)網(wǎng)格框架中,通過培養(yǎng)這些團(tuán)隊(duì)實(shí)施分析用例至關(guān)重要。這包括為現(xiàn)有成員提供大量培訓(xùn),并創(chuàng)建額外的專門角色。其中,兩個(gè)關(guān)鍵角色至關(guān)重要:數(shù)據(jù)產(chǎn)品負(fù)責(zé)人負(fù)責(zé)指導(dǎo)數(shù)據(jù)的戰(zhàn)略方向;數(shù)據(jù)工程師則負(fù)責(zé)構(gòu)建和管理這些數(shù)據(jù)產(chǎn)品的技術(shù)方面。
數(shù)據(jù)產(chǎn)品負(fù)責(zé)人是以業(yè)務(wù)為導(dǎo)向的數(shù)據(jù)人員,他們從事務(wù)和分析的角度了解業(yè)務(wù)領(lǐng)域,直接與數(shù)據(jù)產(chǎn)品的消費(fèi)者溝通,并定義產(chǎn)品及其戰(zhàn)略和路線圖。
數(shù)據(jù)工程師在數(shù)據(jù)工程和數(shù)據(jù)科學(xué)方面是全面的通才,在業(yè)務(wù)所需的某個(gè)數(shù)據(jù)相關(guān)領(lǐng)域擁有更深的專業(yè)知識。該角色構(gòu)建實(shí)際的數(shù)據(jù)產(chǎn)品,也是其他團(tuán)隊(duì)提出技術(shù)問題的對接人。
為成功奠定基礎(chǔ):
數(shù)據(jù)網(wǎng)格平臺
為充分發(fā)揮數(shù)據(jù)網(wǎng)格的潛力,我建議將這兩個(gè)角色直接嵌入到生產(chǎn)和消費(fèi)團(tuán)隊(duì)中。一種有效但次優(yōu)的變體(因?yàn)樗匦乱肓舜韴F(tuán)隊(duì))是為每個(gè)業(yè)務(wù)領(lǐng)域(如電子商務(wù))建立一個(gè)獨(dú)立的數(shù)據(jù)網(wǎng)格團(tuán)隊(duì)。數(shù)據(jù)網(wǎng)格平臺為生產(chǎn)者和消費(fèi)者提供支持,使他們的工作更加高效。數(shù)據(jù)網(wǎng)格平臺團(tuán)隊(duì)不創(chuàng)建數(shù)據(jù)產(chǎn)品,也不存儲或處理數(shù)據(jù)。
數(shù)據(jù)網(wǎng)格平臺有三個(gè)角色:
1.提供數(shù)據(jù)目錄、訪問控制、CI/CD管道、監(jiān)控以及預(yù)備開發(fā)和測試環(huán)境等工具和基礎(chǔ)設(shè)施;
2.培訓(xùn)和指導(dǎo)生產(chǎn)者和消費(fèi)者,必要時(shí)通過額外的開發(fā)能力為他們提供支持;
3.以聯(lián)邦方式制定必須在整個(gè)組織內(nèi)遵守的通用標(biāo)準(zhǔn)和程序。
數(shù)據(jù)網(wǎng)格平臺的使命是為生產(chǎn)者和消費(fèi)者提供簡單、高效、無壓力的環(huán)境。
但是,成功且可持續(xù)地運(yùn)行平臺并不容易。我在博客文章中總結(jié)了我的經(jīng)驗(yàn),內(nèi)容是如何建立有效支持開發(fā)團(tuán)隊(duì)的平臺。