對企業(yè)來說,數(shù)據(jù)作為一種“無形資產(chǎn)”的重要性也變得比以往更加凸顯。企業(yè)的數(shù)字化戰(zhàn)略開始從“業(yè)務(wù)驅(qū)動”轉(zhuǎn)向“數(shù)據(jù)驅(qū)動”。數(shù)字化轉(zhuǎn)型的前提是數(shù)據(jù)化,所以數(shù)據(jù)成為了一種新的生產(chǎn)資料,也成為了數(shù)字化業(yè)務(wù)新的“原點(diǎn)”。
如果將數(shù)據(jù)比作自然世界中的水,無論是江川還是河流,數(shù)據(jù)的流動都像是“涓涓細(xì)流”,所以“河道”治理,也相當(dāng)于數(shù)據(jù)處理的難度并不大。
當(dāng)來自江川和河流的水源源不斷地匯聚,大量的水域形成一片湖泊,大數(shù)據(jù)的理念就此產(chǎn)生,這片“數(shù)據(jù)湖”顯然就是為了處理大數(shù)據(jù)而生。
數(shù)據(jù)湖逐漸成為新的標(biāo)準(zhǔn)
如同數(shù)據(jù)湖概念的提出者James Dixon所說:“如果數(shù)據(jù)集市是一個商店的瓶裝水,數(shù)據(jù)被過濾包裝結(jié)構(gòu)化以供使用——數(shù)據(jù)湖則是在更自然狀態(tài)下的大量的水。數(shù)據(jù)湖中的數(shù)據(jù)來源于不同地方,用戶可以進(jìn)入數(shù)據(jù)湖中按需提取所需要的數(shù)據(jù)”。
簡單地說,數(shù)據(jù)湖的概念,代表了一種新的數(shù)據(jù)存儲理念,它是一個存儲企業(yè)的各種各樣原始數(shù)據(jù)的大型倉庫,其中的數(shù)據(jù)可供存取、處理、分析及傳輸。Hadoop則是最常用的部署數(shù)據(jù)湖的技術(shù)。
數(shù)據(jù)湖之所以被很多企業(yè)寄予眾望,在于它的部署簡單。過去的企業(yè)存儲和數(shù)據(jù)庫有各種各樣的復(fù)雜標(biāo)準(zhǔn),而數(shù)據(jù)湖通常只是企業(yè)所有數(shù)據(jù)的單一存儲,包括源系統(tǒng)數(shù)據(jù)的原始副本,以及用于報告、可視化、分析和機(jī)器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù),等于包含了結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù),和非結(jié)構(gòu)化數(shù)據(jù)。
顯然這種對數(shù)據(jù)的兼容并包,能給企業(yè)很快帶來多種能力,如數(shù)據(jù)湖結(jié)合數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)技術(shù),能幫助企業(yè)構(gòu)建更多優(yōu)化后的運(yùn)營模型等等。
正因?yàn)槿绱?,很多企業(yè)都在計劃構(gòu)建自己的數(shù)據(jù)湖,Gartner 2020年發(fā)布的報告顯示目前已經(jīng)有39%的用戶在使用數(shù)據(jù)湖,34%的用戶考慮在1年內(nèi)使用數(shù)據(jù)湖。也有數(shù)據(jù)預(yù)測數(shù)據(jù)湖市場規(guī)模在2024年將增長到201億美金。
云服務(wù)商是數(shù)據(jù)湖技術(shù)發(fā)展的主要倡導(dǎo)者,也是主要是的受益者,如AWS、微軟Azure和阿里云都有備受用戶認(rèn)可的數(shù)據(jù)湖服務(wù)。云服務(wù)商的數(shù)據(jù)湖服務(wù)可以滿足企業(yè)業(yè)務(wù)的高彈性需求。企業(yè)無需先期購買服務(wù)器、存儲等硬件設(shè)備,降低了運(yùn)維成本使用成本,提高了資源利用率,同時可以支持?jǐn)?shù)據(jù)多元集成和遷移,大幅帶動提升了企業(yè)原有分析和治理系統(tǒng)的性能優(yōu)化。
從1.0到3.0
從“成本中心”到“創(chuàng)新中心”
與很多技術(shù)的發(fā)展趨勢一樣,數(shù)據(jù)湖也經(jīng)歷過初期的粗放式發(fā)展。數(shù)據(jù)湖的1.0時代主要是開源Hadoop數(shù)據(jù)湖架構(gòu),原始數(shù)據(jù)統(tǒng)一存放在 HDFS 系統(tǒng)上,引擎以 Hadoop 和 Spark 開源生態(tài)為主,存儲和計算一體。
對象存儲的發(fā)展為數(shù)據(jù)湖提供了強(qiáng)有力的支撐,由于對象存儲對于文件數(shù)量、存儲容量沒有限制,極大突破了HDFS(Hadoop分布式文件系統(tǒng))因?yàn)镹amenode設(shè)計機(jī)制無法支撐大量小文件的困境,通過冷熱數(shù)據(jù)分層模式,可以顯著優(yōu)化成本。
但缺點(diǎn)同樣明顯,因?yàn)樵紨?shù)據(jù)統(tǒng)一存放在HDFS系統(tǒng)上,引擎以Hadoop和Spark為主,受到開源軟件本身能力的限制,傳統(tǒng)技術(shù)無法滿足企業(yè)用戶在數(shù)據(jù)規(guī)模、存儲成本、查詢性能以及彈性計算架構(gòu)升級等方面的需求。
在此背景下,數(shù)據(jù)湖2.0架構(gòu)應(yīng)運(yùn)而生,用戶在此架構(gòu)下不再需要搭建HDFS數(shù)據(jù)集群,同時數(shù)據(jù)湖可以直接接入業(yè)務(wù)生產(chǎn)中心,如業(yè)務(wù)系統(tǒng)中的原始數(shù)據(jù)、日志數(shù)據(jù)等,數(shù)據(jù)可通過互聯(lián)網(wǎng)直接入湖,無需經(jīng)過中間處理,提升業(yè)務(wù)效率。
但數(shù)據(jù)湖2.0架構(gòu)下雖然實(shí)現(xiàn)了數(shù)據(jù)的統(tǒng)一存儲,但是用戶仍然需要在計算側(cè)進(jìn)行自行搭建來實(shí)現(xiàn)元數(shù)據(jù)管理和協(xié)議轉(zhuǎn)換,這給用戶帶來了運(yùn)維復(fù)雜性,同時這部分的數(shù)據(jù)管理無法和對象存儲在底層實(shí)現(xiàn)無縫融合,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理。
云原生時代到來,給了數(shù)據(jù)湖更多的選擇。比如云上純托管的存儲系統(tǒng)逐步取代 HDFS,成為數(shù)據(jù)湖的存儲基礎(chǔ)設(shè)施。同時,在Hadoop和Spark的引擎之外,云服務(wù)商們還發(fā)展出面向數(shù)據(jù)湖的引擎產(chǎn)品,如AWS Athena和Sagemaker等等。
阿里云則基于云原生數(shù)據(jù)湖,提出了數(shù)據(jù)湖3.0架構(gòu),通過全兼容的HDFS服務(wù)化能力,用戶不再需要搭建元數(shù)據(jù)管理集群,輕松實(shí)現(xiàn)自建 HDFS 向數(shù)據(jù)湖架構(gòu)遷移。同時,原生具備多協(xié)議的接入能力,及多種元數(shù)據(jù)的統(tǒng)一管理,實(shí)現(xiàn)HDFS與對象存儲底層的無縫融合,真正讓數(shù)據(jù)在多種的生態(tài)間高效統(tǒng)一流入、管理、使用,幫助用戶加速業(yè)務(wù)創(chuàng)新。
這也是云原生數(shù)據(jù)湖的意義所在,可直接接入業(yè)務(wù)生產(chǎn)中心,如業(yè)務(wù)系統(tǒng)中的原始數(shù)據(jù)、日志數(shù)據(jù)等可通過互聯(lián)網(wǎng)直接入湖,無需經(jīng)過中間環(huán)節(jié)處理,業(yè)務(wù)效率提升一倍以上,有力地驅(qū)動企業(yè)IT系統(tǒng)從“成本中心”轉(zhuǎn)型為“創(chuàng)新中心”。
魚與熊掌可以兼得
去年10月23日,阿里云宣布推出業(yè)內(nèi)首個云原生企業(yè)級數(shù)據(jù)湖解決方案,該方案采用了存儲計算分離架構(gòu),以阿里云對象存儲 OSS 為中心實(shí)現(xiàn)統(tǒng)一存儲,為企業(yè)生產(chǎn)業(yè)務(wù)提供大規(guī)模、高性能、高安全的數(shù)據(jù)湖存儲底座。今年阿里云又定義了數(shù)據(jù)湖3.0架構(gòu),幫助企業(yè)更好的發(fā)揮數(shù)據(jù)價值。
作為阿里云存儲的重要戰(zhàn)略,阿里云是如何定義云數(shù)據(jù)湖3.0?
首先,阿里云有強(qiáng)大的數(shù)據(jù)存儲引擎。阿里云的數(shù)據(jù)湖底座對象存儲 OSS 是基于阿里云自研的分布式存儲引擎——盤古搭建,提供體系化的數(shù)據(jù)采集能力,支持結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)源。
在具體的客戶收益方面,OSS 對象接口支持毫秒級原子10億級目錄重命名,通過OSS 加速器實(shí)現(xiàn)10倍讀性能提升,支持所有存儲類型沉降至冷歸檔,降本最高達(dá) 90%,并提供分鐘級數(shù)據(jù)取回能力。面向AI 場景,OSS 實(shí)現(xiàn)與CPFS 數(shù)據(jù)流動,降低95%計算等待時間,大幅提升訓(xùn)練效率。
其次,與云原生平臺的深入結(jié)合。阿里云云原生數(shù)據(jù)湖體系由數(shù)據(jù)湖對象存儲 OSS、數(shù)據(jù)湖構(gòu)建 DLF、E-MapReduce、云原生數(shù)據(jù)湖分析 DLA、DataWorks 等產(chǎn)品強(qiáng)強(qiáng)組合,在存儲與計算分離的架構(gòu)下,提供“湖存儲”、“湖加速”、“湖管理”、“湖計算”的企業(yè)級數(shù)據(jù)湖解決方案。
我們知道,數(shù)據(jù)湖可以對接多種差異性的計算引擎,運(yùn)行在不同負(fù)載之上,多種計算引擎都共享同一套存儲系統(tǒng),有利于幫助企業(yè)打破數(shù)據(jù)孤島,洞察數(shù)據(jù)價值。
第三,內(nèi)部及外部的有效驗(yàn)證。這一點(diǎn)非常容易理解,阿里巴巴本身是阿里云數(shù)據(jù)湖產(chǎn)品的最佳實(shí)踐者,后者首先支撐了阿里巴巴集團(tuán)內(nèi)部的電商、移動辦公、文娛、物流、本地生活等各種復(fù)雜業(yè)務(wù),建立了完善的自我實(shí)踐機(jī)制,產(chǎn)品和方案得到有效的驗(yàn)證。同時,阿里云的數(shù)據(jù)湖方案也支撐了在線教育、互聯(lián)網(wǎng)廣告、新媒體、網(wǎng)絡(luò)游戲等行業(yè)用戶在快速發(fā)展過程中的實(shí)際業(yè)務(wù)需求,實(shí)現(xiàn)了技術(shù)的有效賦能。
總體而言,因?yàn)槊撎プ蚤_源技術(shù),數(shù)據(jù)湖的進(jìn)入門檻很低,非常容易自建,但后期的成長很困難,運(yùn)維壓力也會逐漸增大,以阿里云為代表的的云原生數(shù)據(jù)湖,實(shí)際上給了企業(yè)一個極佳的選擇,既能夠快速通過數(shù)據(jù)價值的挖掘走向業(yè)務(wù)創(chuàng)新,也無需為數(shù)據(jù)的存、管、用絞盡腦汁。阿里云數(shù)據(jù)湖3.0面向業(yè)務(wù)驅(qū)動,讓數(shù)據(jù)價值歸于原點(diǎn)。