10月22日上午,2021杭州云棲大會(huì)大數(shù)據(jù)平臺(tái)技術(shù)論壇中,阿里云和各行業(yè)客戶、大數(shù)據(jù)開(kāi)發(fā)者共同探討大數(shù)據(jù)平臺(tái)技術(shù)發(fā)展趨勢(shì)及最新演進(jìn),圍繞業(yè)內(nèi)持續(xù)受到關(guān)注的數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、湖倉(cāng)一體架構(gòu)等技術(shù)和云上實(shí)戰(zhàn)經(jīng)驗(yàn)進(jìn)行了深入交流,并由阿里云智能計(jì)算平臺(tái)產(chǎn)品與解決方案總經(jīng)理高雪峰和阿里云智能研究員、阿里云智能通用計(jì)算平臺(tái)MaxCompute、機(jī)器學(xué)習(xí)PAI平臺(tái)技術(shù)負(fù)責(zé)人林偉分別對(duì)阿里云新一代離線實(shí)時(shí)一體化數(shù)倉(cāng)與湖倉(cāng)一體進(jìn)行了全新升級(jí)發(fā)布,對(duì)這兩項(xiàng)大數(shù)據(jù)技術(shù)進(jìn)行了深入解讀。
阿里云智能研究員、通用計(jì)算平臺(tái)MaxCompute、機(jī)器學(xué)習(xí)PAI平臺(tái)技術(shù)負(fù)責(zé)人林偉
云上數(shù)倉(cāng)離在線一體化,實(shí)現(xiàn)分析性能提升
實(shí)時(shí)化和智能化成為云上數(shù)倉(cāng)服務(wù)的發(fā)展方向。越來(lái)越多的企業(yè)無(wú)法忍受數(shù)據(jù)經(jīng)過(guò)T+1的離線處理之后,再產(chǎn)生指導(dǎo)業(yè)務(wù)數(shù)據(jù)決策的漫長(zhǎng)工作,而是希望能在不斷產(chǎn)生實(shí)時(shí)數(shù)據(jù)的同時(shí),與既有的離線數(shù)據(jù)一起產(chǎn)生實(shí)時(shí)洞察,從而立即產(chǎn)生業(yè)務(wù)所需的策略。
據(jù)高雪峰介紹,游戲玩家在游戲體驗(yàn)過(guò)程中,按照玩家的即時(shí)需求給他推送對(duì)當(dāng)前游戲體驗(yàn)有很大幫助的禮包,在滿足玩家體驗(yàn)的同時(shí),也會(huì)增加付費(fèi)轉(zhuǎn)化率;在證券交易實(shí)時(shí)數(shù)據(jù)產(chǎn)生時(shí),通過(guò)離在線一體化的數(shù)據(jù)分析實(shí)現(xiàn)交易,滿足監(jiān)管機(jī)構(gòu)的管理要求,更好的幫助機(jī)構(gòu)控制風(fēng)險(xiǎn)。
阿里云智能計(jì)算平臺(tái)產(chǎn)品與解決方案總經(jīng)理高雪峰
云上數(shù)倉(cāng)離在線一體化方案,針對(duì)用戶在分析領(lǐng)域各種時(shí)效性的需求,按需提供服務(wù)。離線大數(shù)據(jù)分析MaxCompute與實(shí)時(shí)數(shù)倉(cāng)Hologres實(shí)現(xiàn)深度集成,對(duì)離線數(shù)據(jù)的實(shí)時(shí)化分析可以實(shí)現(xiàn)10倍性能的提升。
在實(shí)時(shí)數(shù)倉(cāng)的內(nèi)部構(gòu)件當(dāng)中,可以通過(guò)實(shí)時(shí)計(jì)算Flink版的能力實(shí)現(xiàn)事件驅(qū)動(dòng)的實(shí)時(shí)數(shù)倉(cāng)的構(gòu)建。向外可以對(duì)數(shù)據(jù)湖中的數(shù)據(jù)進(jìn)行高效的分析,實(shí)現(xiàn)數(shù)據(jù)高速入倉(cāng),通過(guò)對(duì)標(biāo)準(zhǔn)開(kāi)放的 SQL協(xié)議的支持,實(shí)現(xiàn)對(duì)19款主流BI工具的原生支持,幫助客戶快速構(gòu)建從數(shù)據(jù)集成到數(shù)據(jù)分析界面的數(shù)倉(cāng)應(yīng)用。
數(shù)據(jù)規(guī)模越來(lái)越大,集群規(guī)模越來(lái)越大,一定會(huì)對(duì)大數(shù)據(jù)平臺(tái)的運(yùn)維能力產(chǎn)生很大的挑戰(zhàn),在海量數(shù)據(jù)可管,可控下,通過(guò)查詢優(yōu)化技術(shù)和文件存儲(chǔ)優(yōu)化技術(shù)將大規(guī)模集群的優(yōu)勢(shì)發(fā)揮到極致,并通過(guò)冷熱冰存儲(chǔ)的自動(dòng)分層,為用戶降低存儲(chǔ)增長(zhǎng)帶來(lái)的成本的提升。智能數(shù)倉(cāng)解決了大部分企業(yè)運(yùn)維難的問(wèn)題,真正做到企業(yè)大數(shù)據(jù)平臺(tái)的智能駕駛。
湖倉(cāng)一體新升級(jí)2.0,真正做到一份數(shù)據(jù),統(tǒng)一管控,多樣分析
最近,數(shù)據(jù)湖的形態(tài)被眾多企業(yè)所使用,這種技術(shù)形態(tài)決定了企業(yè)很容易管理數(shù)據(jù),并在其之上使用豐富的開(kāi)源引擎做各種形態(tài)的計(jì)算。同時(shí),在傳統(tǒng)報(bào)表等BI應(yīng)用催生下,企業(yè)已經(jīng)構(gòu)建的數(shù)據(jù)倉(cāng)庫(kù)形成了“數(shù)據(jù)孤島”,數(shù)據(jù)間協(xié)同分析很難被執(zhí)行,而且大部分企業(yè)沒(méi)有將所有數(shù)據(jù)進(jìn)行大集中處理的能力。
在應(yīng)用需求催生下,面向不同的倉(cāng)和湖形態(tài)的數(shù)據(jù)存儲(chǔ)和分析,企業(yè)有了非常強(qiáng)的數(shù)據(jù)互通需求。這也是“湖倉(cāng)一體”的產(chǎn)生的背景。去年,阿里云“湖倉(cāng)一體”打通云上數(shù)倉(cāng)產(chǎn)品“MaxCompute”與數(shù)據(jù)湖產(chǎn)品“EMR”,經(jīng)過(guò)一年的客戶磨練與沉淀,“湖倉(cāng)一體”有了2.0的新能力。
從購(gòu)買(mǎi)體驗(yàn)上,用戶可以在線上分鐘級(jí)打通云上Severless數(shù)據(jù)倉(cāng)庫(kù)( MaxCompute)和云原生數(shù)據(jù)湖(EMR+OSS),實(shí)現(xiàn)統(tǒng)一元數(shù)據(jù)、存儲(chǔ)方面的安全互通。不僅更好的支持標(biāo)準(zhǔn)HDFS的數(shù)據(jù)訪問(wèn),而且持續(xù)優(yōu)化對(duì)OSS對(duì)象存儲(chǔ)高速訪問(wèn)性能, 擴(kuò)展支持Hudi、Delta Lake等開(kāi)源數(shù)據(jù)湖格式。MaxCompute計(jì)算服務(wù)通過(guò)對(duì)智能緩存能力的升級(jí),使訪問(wèn)EMR數(shù)據(jù)湖中的數(shù)據(jù)有10+倍性能的提升。
換句話說(shuō),湖倉(cāng)一體2.0可以幫助企業(yè)消除數(shù)據(jù)孤島,通過(guò)DataWorks將不同形態(tài)的數(shù)據(jù)統(tǒng)一管理與治理起來(lái),并對(duì)特定應(yīng)用加速分析。同時(shí)也可以幫助企業(yè)在新建數(shù)倉(cāng)或者數(shù)據(jù)湖的同時(shí),對(duì)既有系統(tǒng)進(jìn)行充分利用,在應(yīng)用需求日趨迫切的時(shí)候,為企業(yè)規(guī)避了進(jìn)行數(shù)據(jù)大集中的決策性風(fēng)險(xiǎn)。