10 月 19 日,在 2021 年云棲大會上,阿里云重磅發(fā)布 DataWorks 全鏈路數(shù)據(jù)治理產(chǎn)品體系,基于數(shù)據(jù)倉庫,數(shù)據(jù)湖、湖倉一體等多種大數(shù)據(jù)架構(gòu),DataWorks 幫助企業(yè)治理內(nèi)部不斷上漲的 " 數(shù)據(jù)懸河 ",釋放企業(yè)的數(shù)據(jù)生產(chǎn)力。
阿里巴巴集團(tuán)副總裁 阿里云智能計算平臺事業(yè)部高級研究員賈揚(yáng)清現(xiàn)場分享
" 當(dāng)數(shù)據(jù)量變得越來越大,單位數(shù)據(jù)的價值會變得越來越小。全鏈路數(shù)據(jù)治理讓數(shù)據(jù)從低質(zhì)低效向高質(zhì)高效流動。"
阿里巴巴集團(tuán)副總裁,阿里云智能計算平臺事業(yè)部高級研究員賈揚(yáng)清在現(xiàn)場表示。黃河泥沙的淤積使河床不斷抬高,形成了河高于地平面的 " 地上懸河 ",在河南開封,最高的懸河達(dá)到 10 米,并且河床每年都會以 10 厘米的速度增高,而隨之而來的,兩邊的堤壩也在不斷地增高。在企業(yè)的數(shù)字化轉(zhuǎn)型中,數(shù)據(jù)量變得越來越大,機(jī)器變得越來越多,團(tuán)隊變得越來越大,數(shù)字化轉(zhuǎn)型真的變得越來越好嗎?對于企業(yè)來說,表象的繁榮不代表未來不會發(fā)生一場 " 洪水 "。在阿里巴巴,雙 11 已經(jīng)成為了日常,2021 年大數(shù)據(jù)計算服務(wù) MaxCompute 的日常數(shù)據(jù)處理的水位線已經(jīng)超過 2020 年雙 11 的峰值,不斷增長的數(shù)據(jù)量已經(jīng)造成了極大的成本與效率的壓力。
l 機(jī)器的效率 + 人的效率 = 數(shù)據(jù)的效率
面對每年如此膨脹的數(shù)據(jù),阿里巴巴的解法是通過大數(shù)據(jù) +AI 一體化平臺的能力,讓數(shù)據(jù)效率成為企業(yè)的核心指標(biāo)。在機(jī)器的效率層面,MaxCompute 作為離線數(shù)倉,單日數(shù)據(jù)處理量已經(jīng)達(dá)到 1.7EB,但是除了數(shù)據(jù)量,更應(yīng)該關(guān)注的是 MaxCompute 僅用 10% 的機(jī)器增長,就支撐了 75% 的數(shù)據(jù)量增長。這里面是 MaxCompute 在底層的存儲和性能不斷地追求極致的優(yōu)化,并且連續(xù) 5 年打破 TPCx-BigBench 100TB 規(guī)模性能世界記錄。同時 Hologres 作為實時數(shù)倉,峰值每秒寫入 5.96 億條,單表存儲高達(dá) 2.5PB,基于萬億級數(shù)據(jù)對外提供多維分析和服務(wù),99.99% 的查詢可以在 80ms 以內(nèi)返回結(jié)果。Hologres 與 MaxCompute 組成離線、實時、分析、服務(wù)一體化的數(shù)據(jù)倉庫,從底層就極大地簡化了大數(shù)據(jù)架構(gòu)的復(fù)雜度。機(jī)器層面的效率往往容易被衡量,但是人的效率卻很難被量化。DataWorks 從 2009 年開始成為阿里巴巴集團(tuán)統(tǒng)一的大數(shù)據(jù)開發(fā)治理平臺,完成阿里巴巴數(shù)據(jù)中臺的搭建。對一個平臺的完善性與易用性,用戶往往會用腳投票。目前在 DataWorks 上構(gòu)建的大規(guī)模協(xié)同數(shù)據(jù)中臺的每日活躍用戶數(shù)已經(jīng)超過 5 萬,平均每 3 個阿里巴巴員工就有 1 個在使用 DataWorks,服務(wù)阿里巴巴內(nèi)部幾乎所有部門,沉淀的全鏈路數(shù)據(jù)治理核心能力超過數(shù)百項。FY2020,阿里巴巴通過數(shù)據(jù)治理的綜合收益超過 10 億元,可以說大數(shù)據(jù)開發(fā)治理平臺 DataWorks 與計算引擎 MaxCompute、Hologres 組成了大數(shù)據(jù)架構(gòu)下的 "Wintel 聯(lián)盟 ",共同提高企業(yè)數(shù)據(jù)的效率。
l 建設(shè)經(jīng)驗:從小作坊到大平臺到敏捷制造
數(shù)據(jù)治理也好、數(shù)據(jù)中臺也好,從來也不是一個從象牙塔里想出來的產(chǎn)品,而是經(jīng)過很多年磨出來的。阿里巴巴的數(shù)字化轉(zhuǎn)型也經(jīng)歷過刀耕火種的年代,每個業(yè)務(wù)團(tuán)隊維護(hù)多套 Hadoop 集群,像一個個小作坊:有什么用什么,需要什么加什么,各種技術(shù)組件像搭積木一樣逐漸堆砌起來。而在這個過程中,經(jīng)常會非常痛苦,平臺發(fā)布了一個新的功能,不知道什么原因把另一個組件搞掛了,然后技術(shù)人員花很長時間去排查另一個組件有什么問題,修復(fù)了一個組件,發(fā)布了一下,又把另一個搞掛了,問題不斷冒出就像 " 按下葫蘆浮起瓢 ",好像永遠(yuǎn)沒有盡頭。于是,阿里巴巴開始轟轟烈烈的平臺統(tǒng)一計劃,搭建起了大平臺,把開源的架構(gòu)改成自研的架構(gòu),數(shù)據(jù)逐漸都遷移到 MaxCompute 上。這個時候數(shù)據(jù)中臺的概念也開始在集團(tuán)內(nèi)推廣,逐漸將 3 個 ONE 的數(shù)據(jù)中臺方法論落地到 DataWorks,完成了阿里巴巴整個數(shù)據(jù)中臺的搭建。至此,從核心的電商天貓?zhí)詫?,到餓了么、優(yōu)酷、盒馬等各個業(yè)務(wù)團(tuán)隊都在同一套大平臺上進(jìn)行一站式的協(xié)同數(shù)據(jù)開發(fā)。但是隨著大平臺的普及,使用的人數(shù)越來越多,數(shù)據(jù)的治理也會越變得更加復(fù)雜。在不斷產(chǎn)生成千上萬張表中,企業(yè)無法知道有多少條不規(guī)范的語句像白蟻一樣正在消耗大量的計算資源;有多少張表正在重復(fù)地被復(fù)制,制造表象的 " 數(shù)據(jù)繁榮 ";有多少臟數(shù)據(jù)在不斷生產(chǎn)污染數(shù)據(jù)的質(zhì)量;有多少張表正在被不斷申請權(quán)限使用,面臨數(shù)據(jù)安全的風(fēng)險。這些問題都對大平臺提出了嚴(yán)峻的挑戰(zhàn)。于是,大平臺逐漸往敏捷制造不斷演進(jìn),通過全鏈路的數(shù)據(jù)治理能力,以全局的視角進(jìn)行管控,并同時實現(xiàn)數(shù)據(jù)的決策的下放。
l DataWorks 全鏈路數(shù)據(jù)治理新品發(fā)布
2021 云棲大會全鏈路數(shù)據(jù)治理峰會,DataWorks 在十二年積累的數(shù)百項數(shù)據(jù)開發(fā)治理能力之上,重磅發(fā)布全鏈路數(shù)據(jù)治理新品。
數(shù)據(jù)治理中心
數(shù)據(jù)治理對于企業(yè)的大數(shù)據(jù)團(tuán)隊,不單是一個技術(shù)問題,更是組織和管理問題。對于整個組織來說,如何來衡量數(shù)據(jù)治理最終的效果?如何更好地發(fā)揮組織的主動性?在一些企業(yè)當(dāng)中,會成立了專門的數(shù)據(jù)委員會,制定一些數(shù)據(jù)治理的規(guī)范,但是發(fā)現(xiàn)平臺并不能很好地支持這些規(guī)范,又或者說企業(yè)購買了一個數(shù)據(jù)平臺,但是卻不知道如何通過平臺來完成數(shù)據(jù)治理的工作。在阿里巴巴內(nèi)部經(jīng)常會參考一個健康分的概念,從組織設(shè)計上,數(shù)據(jù)委員會下面有平臺團(tuán)隊,業(yè)務(wù)團(tuán)隊,以及風(fēng)控、財務(wù)等協(xié)同團(tuán)隊。那對于某個業(yè)務(wù)團(tuán)隊來說,會制定一個今年的目標(biāo)比如說把健康分從 80 分提升為 90 分,從計算、存儲等方面入手,不單從業(yè)務(wù)側(cè)、生產(chǎn)側(cè)開展治理優(yōu)化工作,有需求也會提給數(shù)據(jù)平臺團(tuán)隊,對引擎和數(shù)據(jù)平臺產(chǎn)品進(jìn)行優(yōu)化演進(jìn),大家一起朝這個目標(biāo)努力。組織有了可測量的方式,這些部門就可以把這些數(shù)字放到自己的目標(biāo)里去。同時各類的數(shù)據(jù)治理戰(zhàn)役,各個團(tuán)隊的比武等等長效的運(yùn)營工作,也可以通過健康分做不斷地延展,達(dá)到組織數(shù)據(jù)協(xié)同的目的,發(fā)揮數(shù)據(jù)治理組織的主動性。
DataWorks 全新發(fā)布的數(shù)據(jù)治理中心,針對企業(yè)計算、存儲、研發(fā)、質(zhì)量、安全五個方面形成企業(yè)數(shù)據(jù)治理健康分,以問題驅(qū)動的理念,覆蓋事前、事中、事后的全鏈路主動式數(shù)據(jù)治理和數(shù)據(jù)治理健康度評估。
企業(yè)的數(shù)據(jù)治理不再一個 " 階段性項目 ",而是一個 " 可持續(xù)的運(yùn)營項目 "。
智能數(shù)據(jù)建模
企業(yè)建了一個平臺,做了很多規(guī)范治理,對于業(yè)務(wù)人員的價值到底是什么?省了多少成本,治理了多少問題,對于業(yè)務(wù)人員相對是無感的。業(yè)務(wù)方只希望更快地拿到想要的數(shù)據(jù),于是原先的數(shù)據(jù)倉庫建設(shè)方式更多的是自底向上小步快跑,快速滿足需求為先。而如今的全鏈路數(shù)據(jù)治理,讓數(shù)據(jù)倉庫的建設(shè)向規(guī)范化,可持續(xù)發(fā)展方向演進(jìn),強(qiáng)調(diào)面向業(yè)務(wù)視角自頂向下進(jìn)行規(guī)范建模與面向開發(fā)視角自底向上構(gòu)建數(shù)倉雙管齊下。
DataWorks 全新發(fā)布智能數(shù)據(jù)建模,沉淀阿里巴巴數(shù)據(jù)中臺建設(shè)方法論,從數(shù)倉規(guī)劃、數(shù)據(jù)標(biāo)準(zhǔn)、維度建模、數(shù)據(jù)指標(biāo)四個方面,以業(yè)務(wù)視角對業(yè)務(wù)的數(shù)據(jù)業(yè)務(wù)進(jìn)行詮釋。智能數(shù)據(jù)建模支持快速數(shù)據(jù)建模,包含正向建模與逆向建模,提供分鐘級的模型創(chuàng)建能力。同時打通數(shù)據(jù)開發(fā),可以直接將數(shù)據(jù)模型發(fā)布到多個引擎,一鍵生成質(zhì)量規(guī)則,直接發(fā)布表并自動生成 ETL 簡代碼。企業(yè)的業(yè)務(wù)人員可以方便地了解數(shù)據(jù)全貌,快速獲取所需的數(shù)據(jù)指標(biāo)以及基于數(shù)據(jù)模型進(jìn)行數(shù)據(jù)分析和探查,企業(yè)內(nèi)所有的員可以實現(xiàn) " 數(shù)同 " 的快速理解與流通,讓數(shù)據(jù)決策可以實現(xiàn)真正有效的下放!
盒馬鮮生通過 DataWorks 智能數(shù)據(jù)建模落地新零售行業(yè)數(shù)據(jù)模型 Rex-LDM
同時,現(xiàn)場還發(fā)布了 DataWorks 數(shù)據(jù)集成實時同步能力、智能數(shù)據(jù)查詢、隱私安全計算、DataWorks 開放平臺、數(shù)據(jù)作業(yè)遷云工具與遷云專家服務(wù)等多項功能。
中國信通院在 2021 年 9 月發(fā)布的《全球數(shù)字經(jīng)濟(jì)白皮書》報道,去年我國的數(shù)字經(jīng)濟(jì)規(guī)模已經(jīng)達(dá)到 5.4 萬億美元,占比 GDP 近 1/3。在數(shù)字經(jīng)濟(jì)時代,數(shù)據(jù)已經(jīng)成為關(guān)鍵生產(chǎn)要素,就像在農(nóng)業(yè)經(jīng)濟(jì)時代和工業(yè)經(jīng)濟(jì)時代中,土地、勞動力是關(guān)鍵的生產(chǎn)要素。DataWorks 通過智能數(shù)據(jù)建模、全域數(shù)據(jù)集成、高效數(shù)據(jù)生產(chǎn)、主動數(shù)據(jù)管理、全面數(shù)據(jù)安全、快速數(shù)據(jù)服務(wù)六大全鏈路數(shù)據(jù)治理的能力,承載千行百業(yè)數(shù)字化轉(zhuǎn)型的可能。目前,DataWorks 已經(jīng)在數(shù)字政府、新金融、新零售、能源、工業(yè)、交通、游戲、教育、數(shù)字營銷等行業(yè)落地數(shù)千家客戶。國家電網(wǎng)大數(shù)據(jù)中心通過 DataWorks 實現(xiàn)總部 +27 家?。ㄊ校┕?PB 級數(shù)據(jù)的統(tǒng)一管理,通過全鏈路數(shù)據(jù)中臺的治理與監(jiān)測運(yùn)營體系,加快電網(wǎng)整體數(shù)字化轉(zhuǎn)型升級。創(chuàng)夢天地基于開源的 EMR 引擎,用 DataWorks 替換自研調(diào)度系統(tǒng),讓技術(shù)人員更加專注業(yè)務(wù),助力游戲行業(yè)的數(shù)據(jù)化運(yùn)營。億滋中國通過 DataWorks 智能數(shù)據(jù)建模進(jìn)行全鏈路的數(shù)據(jù)模型治理,極大提升數(shù)據(jù)中臺的自服務(wù)能,讓企業(yè)數(shù)據(jù)決策實現(xiàn)下放,釋放新零售的數(shù)字化力量。
企業(yè)數(shù)字化轉(zhuǎn)型正在進(jìn)入的深水區(qū)," 數(shù)據(jù)懸河 " 將逐漸成為企業(yè)的 " 達(dá)摩克斯之劍 ",阿里云正在與各行各業(yè)的客戶與合作伙伴一起,通過全鏈路數(shù)據(jù)治理,管得好數(shù)據(jù)、用得好數(shù)據(jù),讓數(shù)據(jù)向先進(jìn)生產(chǎn)力集聚!