在數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)的時(shí)代,企業(yè)的數(shù)據(jù)應(yīng)用需求發(fā)生巨大轉(zhuǎn)變,開(kāi)始從傳統(tǒng)的離線(xiàn)分析轉(zhuǎn)向?qū)崟r(shí)數(shù)據(jù)分析,同時(shí)隨著數(shù)據(jù)規(guī)模的極速增長(zhǎng),企業(yè)對(duì)于實(shí)時(shí)數(shù)據(jù)治理提出更高要求。
傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)如Doris、ClickHouse、Hive在處理大規(guī)模、多源異構(gòu)數(shù)據(jù)時(shí)顯得力不從心,難以滿(mǎn)足企業(yè)對(duì)高效、實(shí)時(shí)、靈活數(shù)據(jù)處理與分析的迫切需求。
在此背景下,本文將為您提供如何將傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)升級(jí)為湖倉(cāng)一體(Lakehouse)架構(gòu)的方案,重塑企業(yè)對(duì)于海量數(shù)據(jù)的統(tǒng)一管理與實(shí)時(shí)分析能力。湖倉(cāng)一體架構(gòu)完美融合了數(shù)據(jù)湖的靈活性和數(shù)據(jù)倉(cāng)庫(kù)在數(shù)據(jù)管理方面的成熟特性,為企業(yè)構(gòu)建了一個(gè)統(tǒng)一的數(shù)據(jù)平臺(tái),幫助企業(yè)輕松應(yīng)對(duì)數(shù)據(jù)增長(zhǎng)的挑戰(zhàn)。
升級(jí)數(shù)據(jù)湖方案的關(guān)鍵步驟
關(guān)鍵階段1 擴(kuò)展數(shù)據(jù)湖核心組件
1.選擇與部署分布式存儲(chǔ)
分布式存儲(chǔ)系統(tǒng)是支撐湖倉(cāng)一體架構(gòu)的基石,提供了靈活擴(kuò)展、高可用、高性能、數(shù)據(jù)本地化等特性,為企業(yè)巨量數(shù)據(jù)存儲(chǔ)提供保障。以下是數(shù)據(jù)湖分布式存儲(chǔ)常見(jiàn)的兩種選擇方案:
基于HDFS分布式文件系統(tǒng):適用于大規(guī)模數(shù)據(jù)存儲(chǔ)與處理,具有高吞吐量和容錯(cuò)性。在部署時(shí),支持按需構(gòu)建集群規(guī)模、節(jié)點(diǎn)配置和網(wǎng)絡(luò)拓?fù)洹㈧`活擴(kuò)展。
基于S3分布式對(duì)象存儲(chǔ):以對(duì)象的形式提供巨量數(shù)據(jù)存儲(chǔ)服務(wù),提供可擴(kuò)展、冗余持久、高可用性的數(shù)據(jù)存儲(chǔ)和檢索解決方案。UCloudStor統(tǒng)一分布式存儲(chǔ)平臺(tái)提供標(biāo)準(zhǔn)S3對(duì)象存儲(chǔ)服務(wù)和數(shù)據(jù)統(tǒng)一生命周期管理,是構(gòu)建企業(yè)級(jí)數(shù)據(jù)湖存儲(chǔ)的絕佳選擇。
2.集成數(shù)據(jù)湖表管理工具
數(shù)據(jù)湖表管理工具是湖倉(cāng)一體架構(gòu)的核心,常見(jiàn)的工具有Paimon、Iceberg、Hudi等,均提供ACID事務(wù)保持?jǐn)?shù)據(jù)一致、增量數(shù)據(jù)處理、時(shí)間旅行、優(yōu)化數(shù)據(jù)查詢(xún)性能、優(yōu)化的數(shù)據(jù)組織和管理方式等能力,并且兼容多種大數(shù)據(jù)計(jì)算引擎,如Spark、Flink、Presto/Trino等。
它們還有一些差異能力,供選擇參考:
Paimon:側(cè)重于流處理場(chǎng)景,支持動(dòng)態(tài)表和changelog表等流式數(shù)據(jù)模型,為流處理提供事務(wù)性和高可用性及故障恢復(fù)機(jī)制,它由Flink社區(qū)推動(dòng),與Flink集成更加緊密,適用于高可用性流處理和事務(wù)性保證的場(chǎng)景。
Iceberg:提供一種通用的表格式,支持復(fù)雜表結(jié)構(gòu)的數(shù)據(jù)模型,其使用樂(lè)觀鎖實(shí)現(xiàn)事務(wù),對(duì)并發(fā)控制和快照隔離提供支撐,性能和可擴(kuò)展性?xún)?yōu)異,社區(qū)活躍,適用于高性能查詢(xún)和跨多種計(jì)算引擎工作的場(chǎng)景。
Hudi:提供類(lèi)似于關(guān)系數(shù)據(jù)庫(kù)的更新和刪除操作,以及增量數(shù)據(jù)管道,提供COW、MOR等存儲(chǔ)類(lèi)型,支持文件和記錄級(jí)鎖,和快速Upsert操作,社區(qū)活躍,適用于頻繁進(jìn)行數(shù)據(jù)更新和刪除操作的場(chǎng)景。
集成這些工具前,需要充分考慮與現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)的兼容性情況,數(shù)據(jù)湖管理工具特性,以及工具的社區(qū)活躍度和支持情況等因素。優(yōu)刻得智能大數(shù)據(jù)平臺(tái)USDP,提供基于Hadoop大數(shù)據(jù)生態(tài)支持,涵蓋數(shù)據(jù)采集、巨量數(shù)據(jù)湖存儲(chǔ)、緩存加速、流批處理平臺(tái)、OLAP數(shù)據(jù)庫(kù)、可視化調(diào)度等數(shù)據(jù)全生命周期的大數(shù)據(jù)一站式生態(tài)技術(shù)支持。
關(guān)鍵階段2 元數(shù)據(jù)統(tǒng)一管理
為實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)與數(shù)據(jù)湖元數(shù)據(jù)的統(tǒng)一管理,可考慮復(fù)用MPP數(shù)據(jù)庫(kù)的元數(shù)據(jù)管理服務(wù),通過(guò)其接入數(shù)據(jù)湖元數(shù)據(jù),完成數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)湖的元數(shù)據(jù)統(tǒng)一管理。
通過(guò)MPP數(shù)據(jù)庫(kù)的元數(shù)據(jù)管理服務(wù),采集數(shù)據(jù)湖的元數(shù)據(jù),包括表結(jié)構(gòu)、分區(qū)信息、數(shù)據(jù)格式等,使MPP數(shù)據(jù)庫(kù)元數(shù)據(jù)管理服務(wù)形成中央元數(shù)據(jù)服務(wù)形態(tài)。必要的情況下,需要擴(kuò)展相應(yīng)的連接器來(lái)解決元數(shù)據(jù)服務(wù)與部分?jǐn)?shù)據(jù)湖管理工具間不兼容的對(duì)接工作。
數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的元數(shù)據(jù)服務(wù)整合,將采集到的數(shù)據(jù)湖元數(shù)據(jù)變化及時(shí)存儲(chǔ)在中央元數(shù)據(jù)服務(wù)中,確保數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的元數(shù)據(jù)能夠?qū)崟r(shí)同步,便于原有基于數(shù)據(jù)倉(cāng)庫(kù)的工作流等分析任務(wù)能夠通過(guò)元數(shù)據(jù)服務(wù)訪(fǎng)問(wèn)數(shù)據(jù)湖中的數(shù)據(jù)。同時(shí),建立并維護(hù)長(zhǎng)效穩(wěn)定的元數(shù)據(jù)同步機(jī)制,結(jié)合業(yè)務(wù)數(shù)據(jù)狀況,定期檢查元數(shù)據(jù)的完整性和準(zhǔn)確性,及時(shí)處理元數(shù)據(jù)沖突和異常,維護(hù)元數(shù)據(jù)服務(wù)的高時(shí)效同步效率及穩(wěn)定性。
關(guān)鍵階段3 打通數(shù)倉(cāng)與數(shù)據(jù)湖的互訪(fǎng)
完成前面兩個(gè)關(guān)鍵階段工作后,即可進(jìn)一步對(duì)MPP數(shù)據(jù)庫(kù)與數(shù)據(jù)湖表管理工具進(jìn)行兼容性測(cè)試,從而構(gòu)建相互兼容的湖倉(cāng)統(tǒng)一平臺(tái),確保平臺(tái)技術(shù)面的無(wú)縫兼容。
數(shù)據(jù)湖操作性測(cè)試聚焦于兩大核心:一是數(shù)倉(cāng)與數(shù)據(jù)湖間數(shù)據(jù)調(diào)用的兼容性測(cè)試,二是新數(shù)據(jù)向數(shù)據(jù)湖平臺(tái)的存儲(chǔ)驗(yàn)證。同時(shí),可考慮利用兼容數(shù)據(jù)湖的大數(shù)據(jù)分析引擎如Spark、Flink、Hive等,構(gòu)建基于數(shù)據(jù)湖的數(shù)據(jù)分析業(yè)務(wù)。
重點(diǎn)測(cè)試元數(shù)據(jù)互訪(fǎng)、數(shù)據(jù)湖一致性(ACID事務(wù))、增量處理、時(shí)間旅行及查詢(xún)性能優(yōu)化等。根據(jù)測(cè)試結(jié)果,優(yōu)化兼容性接口、連接器等,基于兼容性測(cè)試及功能完備性驗(yàn)證,真正實(shí)現(xiàn)數(shù)據(jù)在數(shù)倉(cāng)與數(shù)據(jù)湖間的無(wú)縫流動(dòng)。至此,我們已成功實(shí)施了從數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)向湖倉(cāng)一體融合形態(tài)的大數(shù)據(jù)平臺(tái)升級(jí)方案。
若用戶(hù)著眼于業(yè)務(wù)的長(zhǎng)期發(fā)展和優(yōu)化,期望將數(shù)據(jù)湖的優(yōu)勢(shì)特性全面融入整個(gè)大數(shù)據(jù)平臺(tái),蓋新舊數(shù)據(jù)及數(shù)據(jù)處理業(yè)務(wù)員的全流程,則可進(jìn)一步考慮將現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存儲(chǔ)及工作流遷移至數(shù)據(jù)湖架構(gòu),并逐步淘汰舊架構(gòu)及平臺(tái)。不過(guò),鑒于此過(guò)程的復(fù)雜性與較長(zhǎng)時(shí)間周期,需要做好完善的遷移規(guī)劃。
方案延伸 全面轉(zhuǎn)向數(shù)據(jù)湖
由湖倉(cāng)一體平臺(tái)架構(gòu),全面轉(zhuǎn)向數(shù)據(jù)湖架構(gòu),可在上述方案基礎(chǔ)上,開(kāi)展數(shù)據(jù)從數(shù)倉(cāng)至數(shù)據(jù)湖的跨存儲(chǔ)平臺(tái)數(shù)據(jù)遷移,重點(diǎn)保障相關(guān)數(shù)據(jù)的元數(shù)據(jù)一致性及數(shù)據(jù)自身的一致性。
同時(shí),對(duì)原有基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析工作流,逐一向數(shù)據(jù)遷移后的數(shù)據(jù)湖平臺(tái)進(jìn)行割接,采用邊遷移邊驗(yàn)證、邊驗(yàn)證邊割接測(cè)試的策略,并根據(jù)業(yè)務(wù)查詢(xún)特點(diǎn)和數(shù)據(jù)特性,實(shí)施索引優(yōu)化、查詢(xún)重寫(xiě)等操作,充分優(yōu)化查詢(xún)性能;完成對(duì)整個(gè)數(shù)據(jù)倉(cāng)庫(kù)從數(shù)據(jù)到分析業(yè)務(wù)邏輯的過(guò)渡和遷移,直至充分運(yùn)用數(shù)據(jù)湖架構(gòu)完全承載全量數(shù)據(jù)存儲(chǔ)與分析業(yè)務(wù)。
優(yōu)刻得USDP智能大數(shù)據(jù)產(chǎn)品除提供完善的大數(shù)據(jù)生態(tài)支持,以及對(duì)新型數(shù)據(jù)分析框架及服務(wù)支持的同時(shí),還可根據(jù)用戶(hù)現(xiàn)有大數(shù)據(jù)平臺(tái)架構(gòu)及數(shù)據(jù)、工作流等梳理分析,為用戶(hù)制定全面完備的遷移方案、遷移實(shí)施及過(guò)程保障工作。
截至目前,USDP已經(jīng)成功服務(wù)了四川國(guó)稅局、暉致醫(yī)藥、達(dá)美樂(lè)等各領(lǐng)域企業(yè)用戶(hù),積累了豐富的大數(shù)據(jù)平臺(tái)實(shí)踐和服務(wù)經(jīng)驗(yàn),能夠?yàn)橛脩?hù)提供持續(xù)性技術(shù)保障,助力他們實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)向數(shù)據(jù)湖架構(gòu)的平滑過(guò)度。
本文簡(jiǎn)要闡述了企業(yè)大數(shù)據(jù)平臺(tái)從數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)升級(jí)至數(shù)據(jù)湖架構(gòu)的思路和方法。