阿里云數(shù)據(jù)湖3.0：數(shù)據(jù)價(jià)值歸于“原點(diǎn)”

來(lái)源：科技正能量

作者：鄭凱

時(shí)間：2021-09-26

對(duì)企業(yè)來(lái)說(shuō)，數(shù)據(jù)作為一種“無(wú)形資產(chǎn)”的重要性也變得比以往更加凸顯。企業(yè)的數(shù)字化戰(zhàn)略開(kāi)始從“業(yè)務(wù)驅(qū)動(dòng)”轉(zhuǎn)向“數(shù)據(jù)驅(qū)動(dòng)”。數(shù)字化轉(zhuǎn)型的前提是數(shù)據(jù)化，所以數(shù)據(jù)成為了一種新的生產(chǎn)資料，也成為了數(shù)字化業(yè)務(wù)新的“原點(diǎn)”。

如果將數(shù)據(jù)比作自然世界中的水，無(wú)論是江川還是河流，數(shù)據(jù)的流動(dòng)都像是“涓涓細(xì)流”，所以“河道”治理，也相當(dāng)于數(shù)據(jù)處理的難度并不大。

當(dāng)來(lái)自江川和河流的水源源不斷地匯聚，大量的水域形成一片湖泊，大數(shù)據(jù)的理念就此產(chǎn)生，這片“數(shù)據(jù)湖”顯然就是為了處理大數(shù)據(jù)而生。

數(shù)據(jù)湖逐漸成為新的標(biāo)準(zhǔn)

如同數(shù)據(jù)湖概念的提出者James Dixon所說(shuō)：“如果數(shù)據(jù)集市是一個(gè)商店的瓶裝水，數(shù)據(jù)被過(guò)濾包裝結(jié)構(gòu)化以供使用——數(shù)據(jù)湖則是在更自然狀態(tài)下的大量的水。數(shù)據(jù)湖中的數(shù)據(jù)來(lái)源于不同地方，用戶(hù)可以進(jìn)入數(shù)據(jù)湖中按需提取所需要的數(shù)據(jù)”。

簡(jiǎn)單地說(shuō)，數(shù)據(jù)湖的概念，代表了一種新的數(shù)據(jù)存儲(chǔ)理念，它是一個(gè)存儲(chǔ)企業(yè)的各種各樣原始數(shù)據(jù)的大型倉(cāng)庫(kù)，其中的數(shù)據(jù)可供存取、處理、分析及傳輸。Hadoop則是最常用的部署數(shù)據(jù)湖的技術(shù)。

數(shù)據(jù)湖之所以被很多企業(yè)寄予眾望，在于它的部署簡(jiǎn)單。過(guò)去的企業(yè)存儲(chǔ)和數(shù)據(jù)庫(kù)有各種各樣的復(fù)雜標(biāo)準(zhǔn)，而數(shù)據(jù)湖通常只是企業(yè)所有數(shù)據(jù)的單一存儲(chǔ)，包括源系統(tǒng)數(shù)據(jù)的原始副本，以及用于報(bào)告、可視化、分析和機(jī)器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù)，等于包含了結(jié)構(gòu)化數(shù)據(jù)，半結(jié)構(gòu)化數(shù)據(jù)，和非結(jié)構(gòu)化數(shù)據(jù)。

顯然這種對(duì)數(shù)據(jù)的兼容并包，能給企業(yè)很快帶來(lái)多種能力，如數(shù)據(jù)湖結(jié)合數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)技術(shù)，能幫助企業(yè)構(gòu)建更多優(yōu)化后的運(yùn)營(yíng)模型等等。

正因?yàn)槿绱?，很多企業(yè)都在計(jì)劃構(gòu)建自己的數(shù)據(jù)湖，Gartner 2020年發(fā)布的報(bào)告顯示目前已經(jīng)有39%的用戶(hù)在使用數(shù)據(jù)湖，34%的用戶(hù)考慮在1年內(nèi)使用數(shù)據(jù)湖。也有數(shù)據(jù)預(yù)測(cè)數(shù)據(jù)湖市場(chǎng)規(guī)模在2024年將增長(zhǎng)到201億美金。

云服務(wù)商是數(shù)據(jù)湖技術(shù)發(fā)展的主要倡導(dǎo)者，也是主要是的受益者，如AWS、微軟Azure和阿里云都有備受用戶(hù)認(rèn)可的數(shù)據(jù)湖服務(wù)。云服務(wù)商的數(shù)據(jù)湖服務(wù)可以滿足企業(yè)業(yè)務(wù)的高彈性需求。企業(yè)無(wú)需先期購(gòu)買(mǎi)服務(wù)器、存儲(chǔ)等硬件設(shè)備，降低了運(yùn)維成本使用成本，提高了資源利用率，同時(shí)可以支持?jǐn)?shù)據(jù)多元集成和遷移，大幅帶動(dòng)提升了企業(yè)原有分析和治理系統(tǒng)的性能優(yōu)化。

從1.0到3.0

從“成本中心”到“創(chuàng)新中心”

與很多技術(shù)的發(fā)展趨勢(shì)一樣，數(shù)據(jù)湖也經(jīng)歷過(guò)初期的粗放式發(fā)展。數(shù)據(jù)湖的1.0時(shí)代主要是開(kāi)源Hadoop數(shù)據(jù)湖架構(gòu)，原始數(shù)據(jù)統(tǒng)一存放在 HDFS 系統(tǒng)上，引擎以 Hadoop 和 Spark 開(kāi)源生態(tài)為主，存儲(chǔ)和計(jì)算一體。

對(duì)象存儲(chǔ)的發(fā)展為數(shù)據(jù)湖提供了強(qiáng)有力的支撐，由于對(duì)象存儲(chǔ)對(duì)于文件數(shù)量、存儲(chǔ)容量沒(méi)有限制，極大突破了HDFS（Hadoop分布式文件系統(tǒng)）因?yàn)镹amenode設(shè)計(jì)機(jī)制無(wú)法支撐大量小文件的困境，通過(guò)冷熱數(shù)據(jù)分層模式，可以顯著優(yōu)化成本。

但缺點(diǎn)同樣明顯，因?yàn)樵紨?shù)據(jù)統(tǒng)一存放在HDFS系統(tǒng)上，引擎以Hadoop和Spark為主，受到開(kāi)源軟件本身能力的限制，傳統(tǒng)技術(shù)無(wú)法滿足企業(yè)用戶(hù)在數(shù)據(jù)規(guī)模、存儲(chǔ)成本、查詢(xún)性能以及彈性計(jì)算架構(gòu)升級(jí)等方面的需求。

在此背景下，數(shù)據(jù)湖2.0架構(gòu)應(yīng)運(yùn)而生，用戶(hù)在此架構(gòu)下不再需要搭建HDFS數(shù)據(jù)集群，同時(shí)數(shù)據(jù)湖可以直接接入業(yè)務(wù)生產(chǎn)中心，如業(yè)務(wù)系統(tǒng)中的原始數(shù)據(jù)、日志數(shù)據(jù)等，數(shù)據(jù)可通過(guò)互聯(lián)網(wǎng)直接入湖，無(wú)需經(jīng)過(guò)中間處理，提升業(yè)務(wù)效率。

但數(shù)據(jù)湖2.0架構(gòu)下雖然實(shí)現(xiàn)了數(shù)據(jù)的統(tǒng)一存儲(chǔ)，但是用戶(hù)仍然需要在計(jì)算側(cè)進(jìn)行自行搭建來(lái)實(shí)現(xiàn)元數(shù)據(jù)管理和協(xié)議轉(zhuǎn)換，這給用戶(hù)帶來(lái)了運(yùn)維復(fù)雜性，同時(shí)這部分的數(shù)據(jù)管理無(wú)法和對(duì)象存儲(chǔ)在底層實(shí)現(xiàn)無(wú)縫融合，實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理。

云原生時(shí)代到來(lái)，給了數(shù)據(jù)湖更多的選擇。比如云上純托管的存儲(chǔ)系統(tǒng)逐步取代 HDFS，成為數(shù)據(jù)湖的存儲(chǔ)基礎(chǔ)設(shè)施。同時(shí)，在Hadoop和Spark的引擎之外，云服務(wù)商們還發(fā)展出面向數(shù)據(jù)湖的引擎產(chǎn)品，如AWS Athena和Sagemaker等等。

阿里云則基于云原生數(shù)據(jù)湖，提出了數(shù)據(jù)湖3.0架構(gòu)，通過(guò)全兼容的HDFS服務(wù)化能力，用戶(hù)不再需要搭建元數(shù)據(jù)管理集群，輕松實(shí)現(xiàn)自建 HDFS 向數(shù)據(jù)湖架構(gòu)遷移。同時(shí)，原生具備多協(xié)議的接入能力，及多種元數(shù)據(jù)的統(tǒng)一管理，實(shí)現(xiàn)HDFS與對(duì)象存儲(chǔ)底層的無(wú)縫融合，真正讓數(shù)據(jù)在多種的生態(tài)間高效統(tǒng)一流入、管理、使用，幫助用戶(hù)加速業(yè)務(wù)創(chuàng)新。

這也是云原生數(shù)據(jù)湖的意義所在，可直接接入業(yè)務(wù)生產(chǎn)中心，如業(yè)務(wù)系統(tǒng)中的原始數(shù)據(jù)、日志數(shù)據(jù)等可通過(guò)互聯(lián)網(wǎng)直接入湖，無(wú)需經(jīng)過(guò)中間環(huán)節(jié)處理，業(yè)務(wù)效率提升一倍以上，有力地驅(qū)動(dòng)企業(yè)IT系統(tǒng)從“成本中心”轉(zhuǎn)型為“創(chuàng)新中心”。

魚(yú)與熊掌可以兼得

去年10月23日，阿里云宣布推出業(yè)內(nèi)首個(gè)云原生企業(yè)級(jí)數(shù)據(jù)湖解決方案，該方案采用了存儲(chǔ)計(jì)算分離架構(gòu)，以阿里云對(duì)象存儲(chǔ) OSS 為中心實(shí)現(xiàn)統(tǒng)一存儲(chǔ)，為企業(yè)生產(chǎn)業(yè)務(wù)提供大規(guī)模、高性能、高安全的數(shù)據(jù)湖存儲(chǔ)底座。今年阿里云又定義了數(shù)據(jù)湖3.0架構(gòu)，幫助企業(yè)更好的發(fā)揮數(shù)據(jù)價(jià)值。

作為阿里云存儲(chǔ)的重要戰(zhàn)略，阿里云是如何定義云數(shù)據(jù)湖3.0？

首先，阿里云有強(qiáng)大的數(shù)據(jù)存儲(chǔ)引擎。阿里云的數(shù)據(jù)湖底座對(duì)象存儲(chǔ) OSS 是基于阿里云自研的分布式存儲(chǔ)引擎——盤(pán)古搭建，提供體系化的數(shù)據(jù)采集能力，支持結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)源。

在具體的客戶(hù)收益方面，OSS 對(duì)象接口支持毫秒級(jí)原子10億級(jí)目錄重命名，通過(guò)OSS 加速器實(shí)現(xiàn)10倍讀性能提升，支持所有存儲(chǔ)類(lèi)型沉降至冷歸檔，降本最高達(dá) 90%，并提供分鐘級(jí)數(shù)據(jù)取回能力。面向AI 場(chǎng)景，OSS 實(shí)現(xiàn)與CPFS 數(shù)據(jù)流動(dòng)，降低95%計(jì)算等待時(shí)間，大幅提升訓(xùn)練效率。

其次，與云原生平臺(tái)的深入結(jié)合。阿里云云原生數(shù)據(jù)湖體系由數(shù)據(jù)湖對(duì)象存儲(chǔ) OSS、數(shù)據(jù)湖構(gòu)建 DLF、E-MapReduce、云原生數(shù)據(jù)湖分析 DLA、DataWorks 等產(chǎn)品強(qiáng)強(qiáng)組合，在存儲(chǔ)與計(jì)算分離的架構(gòu)下，提供“湖存儲(chǔ)”、“湖加速”、“湖管理”、“湖計(jì)算”的企業(yè)級(jí)數(shù)據(jù)湖解決方案。

我們知道，數(shù)據(jù)湖可以對(duì)接多種差異性的計(jì)算引擎，運(yùn)行在不同負(fù)載之上，多種計(jì)算引擎都共享同一套存儲(chǔ)系統(tǒng)，有利于幫助企業(yè)打破數(shù)據(jù)孤島，洞察數(shù)據(jù)價(jià)值。

第三，內(nèi)部及外部的有效驗(yàn)證。這一點(diǎn)非常容易理解，阿里巴巴本身是阿里云數(shù)據(jù)湖產(chǎn)品的最佳實(shí)踐者，后者首先支撐了阿里巴巴集團(tuán)內(nèi)部的電商、移動(dòng)辦公、文娛、物流、本地生活等各種復(fù)雜業(yè)務(wù)，建立了完善的自我實(shí)踐機(jī)制，產(chǎn)品和方案得到有效的驗(yàn)證。同時(shí)，阿里云的數(shù)據(jù)湖方案也支撐了在線教育、互聯(lián)網(wǎng)廣告、新媒體、網(wǎng)絡(luò)游戲等行業(yè)用戶(hù)在快速發(fā)展過(guò)程中的實(shí)際業(yè)務(wù)需求，實(shí)現(xiàn)了技術(shù)的有效賦能。

總體而言，因?yàn)槊撎プ蚤_(kāi)源技術(shù)，數(shù)據(jù)湖的進(jìn)入門(mén)檻很低，非常容易自建，但后期的成長(zhǎng)很困難，運(yùn)維壓力也會(huì)逐漸增大，以阿里云為代表的的云原生數(shù)據(jù)湖，實(shí)際上給了企業(yè)一個(gè)極佳的選擇，既能夠快速通過(guò)數(shù)據(jù)價(jià)值的挖掘走向業(yè)務(wù)創(chuàng)新，也無(wú)需為數(shù)據(jù)的存、管、用絞盡腦汁。阿里云數(shù)據(jù)湖3.0面向業(yè)務(wù)驅(qū)動(dòng)，讓數(shù)據(jù)價(jià)值歸于原點(diǎn)。

立即登錄，閱讀全文

阿里云

上一篇：所有規(guī)模賣(mài)家都適用的引流新渠道來(lái)了？新的Roku應(yīng)用將進(jìn)入Shopify

版權(quán)說(shuō)明：

本文內(nèi)容來(lái)自于科技正能量，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章