9月23日至25日,華為全聯(lián)接2021以“深耕數(shù)字化”為主題,各行業(yè)領軍人物分享最新成果與實踐。其中在“華為云FusionInsight智能數(shù)據(jù)湖打造千行百業(yè)數(shù)據(jù)底座”專題演講中,華為云FusionInsight技術專家,發(fā)表“華為云FusionInsight智能數(shù)據(jù)湖版本新能力解讀”演講。
進入智能數(shù)據(jù)時代,業(yè)界建設數(shù)據(jù)湖的十大共識
經(jīng)過數(shù)十年的快速發(fā)展,大數(shù)據(jù)處理技術已日漸成熟,圍繞數(shù)據(jù)湖衍生技術多如繁星,業(yè)界在多年的探索之中,也對未來數(shù)據(jù)湖形態(tài)有了十個重要共識,如充分利用云技術實現(xiàn)云原生的數(shù)據(jù)分析,支持混合云及多云部署,各種類型的數(shù)據(jù)、支持更多的數(shù)據(jù)用戶類型,提供不同的數(shù)據(jù)引擎、不同的數(shù)據(jù)處理能力等,這些需求對大數(shù)據(jù)技術創(chuàng)新提出了諸多挑戰(zhàn)。
面對這些挑戰(zhàn),華為云FusionInsight發(fā)布智能數(shù)據(jù)湖最新版本8.1.0去應對新時代對大數(shù)據(jù)的這些技術訴求。
華為云FusionInsight提供湖倉一體的解決方案,兼顧歷史與未來
華為云FusionInisght智能數(shù)據(jù)湖為企業(yè)客戶提供完整的大數(shù)據(jù)云服務產(chǎn)品組合,有單集群最大支持5W節(jié)點的云原生數(shù)據(jù)湖MRS服務和全球最大的商用部署的云數(shù)據(jù)倉庫DWS服務,MRS和DWS既可以靈活按需部署,也可以融合演進到湖倉一體的架構;同時面向不斷增長的數(shù)據(jù)探索分析、新型的圖分析、可信計算等訴求,提供了完全托管式的DLI數(shù)據(jù)湖探索服務,完全自研的高性能一體化的GES圖計算服務、創(chuàng)新的可信智能計算服務TICS,并提供源自華為自身數(shù)字化轉(zhuǎn)型經(jīng)驗沉淀的DGC數(shù)據(jù)湖治理中心服務,用于海量數(shù)據(jù)的數(shù)據(jù)治理、離線分析、實時分析、數(shù)倉集市、多模分析等場景,幫助客戶構建一站式的大數(shù)據(jù)分析平臺,釋放企業(yè)數(shù)據(jù)價值。
MRS云原生數(shù)據(jù)湖提供三湖一集市能力,讓數(shù)據(jù)分析更敏捷
MRS云原生數(shù)據(jù)湖作為FusionInsight主打的云服務,是一款Lakehouse架構的云原生數(shù)據(jù)湖服務,解決傳統(tǒng)大數(shù)據(jù)平臺零散式建設、供數(shù)鏈路長、人工搬遷慢等問題,一個架構實現(xiàn)離線、實時、邏輯三種數(shù)據(jù)湖:
? 離線數(shù)據(jù)湖:提供交互式、BI、AI等多個計算引擎,基于云原生存儲實現(xiàn)存算分離架構,使得云原生數(shù)據(jù)湖的架構更靈活,業(yè)務更敏捷。同時還支持單集群5萬(通過集群聯(lián)邦,支持10萬+規(guī)模)節(jié)點的超大規(guī)模,支持集群滾動升級,保障關鍵業(yè)務升級不中斷。
? 實時數(shù)據(jù)湖:提供生成數(shù)據(jù)CDL實時捕獲入湖、Hudi數(shù)據(jù)湖存儲引擎、ClickHouse毫秒級OLAP分析等構建實時更新處理能力,使得供數(shù)時效從T+1到T+0。
? 邏輯數(shù)據(jù)湖:HetuEngine提供跨湖、跨倉、跨云的協(xié)同分析,實現(xiàn)湖倉一體,減少80%數(shù)據(jù)搬遷,協(xié)同分析提效50倍。
MRS云原生數(shù)據(jù)湖實現(xiàn)數(shù)據(jù)全鏈路實時分析,價值兌現(xiàn)從T+1走向T+0
在華為云FusionInsight 8.1.0 新版本中,MRS云原生數(shù)據(jù)湖實現(xiàn)了數(shù)據(jù)全鏈路實時分析,讓價值兌現(xiàn)從T+1走向T+0。傳統(tǒng)方案從數(shù)據(jù)接入、數(shù)據(jù)入湖到數(shù)據(jù)入湖,不支持增量數(shù)據(jù)更新,數(shù)據(jù)處理采用離線批處理方式,數(shù)據(jù)分析則需提前制定各種CUBE,預聚合的方式費時費力,導致數(shù)據(jù)分析時效性T+1,無法滿足新時代的業(yè)務訴求。
為解決上述問題,MRS云原生數(shù)據(jù)湖通過創(chuàng)新的CDL組件支持直接讀取Binlog日志實時入湖,結(jié)合Flink/Spark實現(xiàn)數(shù)據(jù)實時合并、實時加工,打通信息生產(chǎn)到分析平臺的最后一公里;通過引入Hudi,支持數(shù)據(jù)更新、數(shù)據(jù)刪除,還有ACID能力,保證數(shù)據(jù)實時入湖更新操作;通過引入ClickHouse,可以把數(shù)據(jù)拉到一個大寬表內(nèi)去做分析,只需要對接后端的BI工具,就可以自助式的完成報表開發(fā)。同時,ClickHouse支持實時OLAP,可實現(xiàn)毫秒級實時分析,且ClickHouse不需要建Cube,只要對接BI工具就能輕松完成新業(yè)務的開發(fā)。
MRS云原生數(shù)據(jù)湖通過CDL+Hudi+Clickhouse的新方案,實現(xiàn)全鏈路實時分析,快速構筑實時數(shù)據(jù)湖能力。
IoTDB工業(yè)物聯(lián)網(wǎng)時序數(shù)據(jù)庫,云邊端協(xié)同輕松構建時序數(shù)據(jù)集市
MRS云原生數(shù)據(jù)湖提供一架構三湖能力的同時,還支持構建多模態(tài)數(shù)據(jù)集市,在新版本中引入了MRS IoTDB工業(yè)物聯(lián)網(wǎng)時序數(shù)據(jù)庫,實現(xiàn)云邊端協(xié)同輕松構建時序數(shù)據(jù)集市。MRS IoTDB是由華為云FusionInsight團隊與是清華大學共同開發(fā),聚焦工業(yè)物聯(lián)網(wǎng)領域的工業(yè)復雜時序數(shù)據(jù)的處理,如千萬級超大規(guī)模測點處理、亂序處理、多序列對齊、序列分割、子序列匹配、旋轉(zhuǎn)門壓縮、降采樣存儲等專業(yè)時序需求,解決通用數(shù)據(jù)庫在超大規(guī)模復雜時序場景的功能短板和性能瓶頸,高效管理海量工業(yè)物聯(lián)網(wǎng)數(shù)據(jù),形成跨越端、邊、云的工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)的利器,在海量時序數(shù)據(jù)處理場景發(fā)揮其“專、快、穩(wěn)、省、易”能力。在實際應用落地中,一臺IoTDB實例就能替代13臺傳統(tǒng)時序數(shù)據(jù)庫,性能優(yōu)勢明顯。
災備:兩地三中心高可用,確保業(yè)務連續(xù)性,SLA 99.999%
在增強數(shù)據(jù)湖平臺全鏈路實時分析與工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)庫能力的基礎上,MRS云原生數(shù)據(jù)湖在數(shù)據(jù)可靠性上再次進行增強,提供了三個容災方案:
提供原有的數(shù)據(jù)備份能力,支持將關鍵數(shù)據(jù)備份到異地中,一旦出現(xiàn)集群故障導致數(shù)據(jù)丟失,則可以將備份數(shù)據(jù)恢復回來。
新增了單集群跨AZ高可用方案:支持將一個集群部署在多個機房中,通過副本放置策略確保數(shù)據(jù)副本存放在不同的機房,通過YARN的任務調(diào)度機制的優(yōu)化確保任務優(yōu)先訪問任務所在機房的數(shù)據(jù)副本,當一個機房出現(xiàn)故障后,任務會自動切換到其他機房的機器上,從而確保單AZ故障時數(shù)據(jù)不丟失,關鍵業(yè)務不中斷。
同時,還新增了異地主備容災方案:也就是分別建設主、備兩個MRS集群,主集群數(shù)據(jù)會周期或?qū)崟r自動同步到備集群上。當主集群故障時,將業(yè)務倒換到備集群上,確保業(yè)務快速恢復。
通過以上三種方案,MRS云原生數(shù)據(jù)湖可以實現(xiàn)從簡單的數(shù)據(jù)備份到跨AZ高可用,到異地容災的完整場景覆蓋,業(yè)務可以根據(jù)自身業(yè)務特點以及需要應對的故障場景,靈活選擇適合自己的方案。
DWS:新一代全場景云數(shù)據(jù)倉庫
華為云FusionInsight智能數(shù)據(jù)湖另一主打云服務為DWS云數(shù)據(jù)倉庫,它是一款具備分析及混合負載能力的云數(shù)據(jù)倉庫服務,具有高性能、高擴展、高可用等特點,廣泛應用于汽車、制造、零售、互聯(lián)網(wǎng)、金融、政府、電信等行業(yè)的核心分析決策系統(tǒng)。它不僅僅是把數(shù)倉搬上云這么簡單,而是真正面向未來的云原生架構的數(shù)倉服務。
作為全球最大的金融數(shù)倉,DWS通過了信通院單集群2048節(jié)點的規(guī)模認證,當前已經(jīng)商用的最大集群有480個節(jié)點。
DWS通過一套內(nèi)核一套架構同時支持標準數(shù)倉、實時數(shù)倉和云數(shù)倉,匹配了用戶全場景需求。
DGC:一站式數(shù)據(jù)開發(fā)與治理,讓開發(fā)者輕松駕馭數(shù)據(jù)
華為云FusionInsight智能數(shù)據(jù)湖不僅為政企客戶提供湖倉一體的架構,還有DGC數(shù)據(jù)湖治理中心服務,提供一站式數(shù)據(jù)開發(fā)集成管理平臺,提供統(tǒng)一的數(shù)據(jù)治理工具,加速數(shù)據(jù)資產(chǎn)沉淀。
DGC的特性主要集中在平臺能力和生態(tài)兩個方面:
在平臺能力方面:DGC提供一站式數(shù)據(jù)開發(fā)集成管理平臺,支持40多種異構數(shù)據(jù)源、全拖拽式開發(fā)、多維實時搜索、0代碼API開發(fā)等能力;并提供基于華為10多年數(shù)據(jù)治理經(jīng)驗沉淀出的數(shù)據(jù)架構、標準規(guī)范、數(shù)據(jù)開發(fā)、數(shù)據(jù)質(zhì)量等數(shù)據(jù)治理能力;
在生態(tài)建設方面:DGC通過開放API,使能行業(yè) ISV 快速集成開發(fā);通過合作伙伴提供數(shù)據(jù)標準、模型、指標、接口等行業(yè)數(shù)據(jù)模型,幫助企業(yè)快速構筑數(shù)據(jù)治理能力。
華為云FusionInsight深耕大數(shù)據(jù)10年+,持續(xù)創(chuàng)新引領大數(shù)據(jù)技術發(fā)展
華為云FusionInsight持續(xù)投入10年+,堅持開放路線,在扎根社區(qū)的同時,也積極回饋社區(qū),為行業(yè)新技術發(fā)展貢獻力量;同時,華為云FusionInsight智能數(shù)據(jù)湖將持續(xù)貫徹“平臺+生態(tài)”戰(zhàn)略,攜手800+合作伙伴,服務于全球60+國家和地區(qū)3000+政企客戶,已廣泛應用于政府、金融、運營商、大企業(yè)等行業(yè)。