4月26日,在華為開發(fā)者大會(huì)2021(Cloud)上,華為云數(shù)據(jù)使能DAYU主力產(chǎn)品GaussDB(DWS)首席架構(gòu)師解讀了GaussDB(DWS)的一站式數(shù)據(jù)分析能力。
隨著大數(shù)據(jù)觀念逐步深入,數(shù)據(jù)分析帶來的價(jià)值愈發(fā)被大家重視起來。從PC時(shí)代,到互聯(lián)網(wǎng)時(shí)代、移動(dòng)互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)應(yīng)用不再是簡(jiǎn)單的分析和挖掘,而是更加智能化。
典型企業(yè)分析場(chǎng)景主要分為實(shí)時(shí)分析處理,批量分析處理以及交互式查詢處理。當(dāng)前常見的解決方案用不同技術(shù)解決不同問題:使用Hana,Oracle Exadata處理實(shí)時(shí)分析場(chǎng)景;使用Teradata,Greenplum處理批量分析場(chǎng)景;使用Oracle和SQL Server等處理交互式查詢場(chǎng)景。
從單一場(chǎng)景來看都是不錯(cuò)的選擇,但是站在整體數(shù)據(jù)域視角去看,這種搭積木式的方案帶來諸多問題,例如組件多,開發(fā)方式不統(tǒng)一,數(shù)據(jù)格式不統(tǒng)一,反復(fù)轉(zhuǎn)換消耗算力和存儲(chǔ)空間;組件間的數(shù)據(jù)流轉(zhuǎn)開發(fā)復(fù)雜,流轉(zhuǎn)效率低;跨集群,跨組件數(shù)據(jù)一致性差等。
華為云GaussDB(DWS)從兩個(gè)維度構(gòu)筑能力,為企業(yè)用戶提供一站式分析能力:
在全并行分布式架構(gòu)上,無縫融合時(shí)序引擎、OLAP引擎、CEP引擎,同時(shí)支撐實(shí)時(shí)分析、批量分析和交互式查詢等不同業(yè)務(wù)負(fù)載,達(dá)到開發(fā)統(tǒng)一、部署統(tǒng)一、維護(hù)統(tǒng)一、數(shù)據(jù)格式統(tǒng)一,真正做到一個(gè)產(chǎn)品包辦的一站式分析;
異構(gòu)平臺(tái)數(shù)據(jù)融合、協(xié)同分析,構(gòu)筑全域數(shù)據(jù)一體化。當(dāng)前企業(yè)IT系統(tǒng)不會(huì)是白紙一張,在不同階段曾經(jīng)采用不同技術(shù)建設(shè)的多套系統(tǒng)承載著不同的業(yè)務(wù),這些系統(tǒng)還未完成歷史使命,將延續(xù)使用相當(dāng)長(zhǎng)一段時(shí)間。華為云GaussDB(DWS)支持多樣性的數(shù)據(jù)融合分析能力,無縫融合并協(xié)同分析企業(yè)現(xiàn)有平臺(tái)數(shù)據(jù),讓老IT系統(tǒng)產(chǎn)生的數(shù)據(jù)煥發(fā)新價(jià)值。
一、T+0實(shí)時(shí)分析
業(yè)務(wù)場(chǎng)景中實(shí)時(shí)數(shù)據(jù)源種類繁多,針對(duì)不同數(shù)據(jù)源采用不同實(shí)時(shí)處理技術(shù)。時(shí)序引擎支持時(shí)序數(shù)據(jù)分析,內(nèi)置100多種時(shí)序分析算法,將時(shí)序數(shù)據(jù)接入后實(shí)時(shí)合并;流引擎接入基于Kafka/Flink等流組件產(chǎn)生的流式數(shù)據(jù),支持對(duì)流數(shù)據(jù)自定義持續(xù)計(jì)算。
二、全并行批量分析
基于Share-nothing分布式架構(gòu),華為云GaussDB(DWS)天然具備大規(guī)模的分布式并行處理能力。多層級(jí)并行技術(shù)將系統(tǒng)性能推至極致,包括節(jié)點(diǎn)間并行、節(jié)點(diǎn)內(nèi)SMP并行,CPU指令級(jí)并行以及動(dòng)態(tài)編譯技術(shù)。同時(shí),通過自研TCP多流、多線程包合并、通信代理等技術(shù),將scale-out能力推至極致,華為云GaussDB(DWS)也是目前唯一通過信通院2048節(jié)點(diǎn)大集群權(quán)威認(rèn)證的分布式數(shù)據(jù)庫產(chǎn)品。
三、多場(chǎng)景交互式查詢
對(duì)短查詢做了全流程梳理,從接入、SQL解析、計(jì)劃發(fā)送、執(zhí)行和數(shù)據(jù)掃描進(jìn)行了一系列優(yōu)化;由于Ad-hoc查詢的負(fù)載具有不可預(yù)見性,經(jīng)??赡軙?huì)出現(xiàn)單一查詢拖慢甚至拖垮整個(gè)集群的情況,華為云GaussDB(DWS)內(nèi)置動(dòng)態(tài)智能負(fù)載管理組件,實(shí)時(shí)監(jiān)控運(yùn)行狀態(tài)和資源消耗,對(duì)異常作業(yè)自動(dòng)預(yù)警并智能干預(yù),例如內(nèi)存占用過高,運(yùn)行時(shí)間過長(zhǎng),大量數(shù)據(jù)廣播等異常情況,系統(tǒng)會(huì)自動(dòng)查殺等。
以銀行業(yè)務(wù)為例,“手機(jī)銀行用戶實(shí)時(shí)數(shù)據(jù)查詢”與“網(wǎng)銀系統(tǒng)交易流水批量作業(yè)”是最常見的業(yè)務(wù)場(chǎng)景,采用2套技術(shù)方案或2個(gè)平臺(tái)分別處理,則會(huì)出現(xiàn)資源重復(fù)投入。
使用華為云GaussDB(DWS)實(shí)現(xiàn)2個(gè)業(yè)務(wù)場(chǎng)景需求,數(shù)據(jù)無需反復(fù)轉(zhuǎn)換和流轉(zhuǎn),提升了業(yè)務(wù)處理效率,節(jié)省運(yùn)維成本。2小時(shí)可完成7萬個(gè)核心業(yè)務(wù)的銀行日增量數(shù)據(jù)歸檔和數(shù)據(jù)加工,同時(shí)支持手機(jī)銀行終端7x24小時(shí)實(shí)時(shí)查詢;當(dāng)上千萬個(gè)人用戶與幾十萬企業(yè)用戶同時(shí)使用系統(tǒng),并發(fā)進(jìn)行日間批量作業(yè)10萬個(gè)的批量高峰期,實(shí)時(shí)查詢可在3秒內(nèi)響應(yīng),真正做到跑批和實(shí)時(shí)作業(yè)互不影響。
華為云GaussDB(DWS) 面向未來,構(gòu)筑新一代、全場(chǎng)景、云數(shù)據(jù)倉庫,一站式數(shù)據(jù)分析,釋放非凡數(shù)據(jù)價(jià)值,做企業(yè)數(shù)字化轉(zhuǎn)型的最佳伙伴。
-END-