基于亞馬遜云科技云原生數(shù)據(jù)倉(cāng)庫(kù)Amazon Redshift,皮爺咖啡構(gòu)建敏捷的數(shù)據(jù)治理架構(gòu)

來(lái)源:亞馬遜云科技
作者:亞馬遜云科技
時(shí)間:2023-08-17
3194
咖啡,正在成為新一代我國(guó)年輕人的國(guó)民飲料,它是打工人的“續(xù)命”能量飲,是都市青年的生活調(diào)劑。隨著咖啡消費(fèi)已成為習(xí)慣,咖啡行業(yè)正在進(jìn)一步下沉并向咖啡需求的品質(zhì)化、精品化升級(jí)??Х犬a(chǎn)業(yè)正在我國(guó)加速奔跑,以嶄新的面貌快速發(fā)展、成長(zhǎng)。

咖啡,正在成為新一代我國(guó)年輕人的國(guó)民飲料,它是打工人的“續(xù)命”能量飲,是都市青年的生活調(diào)劑。隨著咖啡消費(fèi)已成為習(xí)慣,咖啡行業(yè)正在進(jìn)一步下沉并向咖啡需求的品質(zhì)化、精品化升級(jí)??Х犬a(chǎn)業(yè)正在我國(guó)加速奔跑,以嶄新的面貌快速發(fā)展、成長(zhǎng)。

皮爺咖啡(Peet’s Coffee)是美國(guó)精品咖啡品牌,于2017年進(jìn)入中國(guó),為中國(guó)消費(fèi)者帶來(lái)傳統(tǒng)經(jīng)典咖啡飲品,并特別呈現(xiàn)更加豐富的品質(zhì)咖啡飲品體驗(yàn)。通過(guò)深入應(yīng)用亞馬遜云科技云原生數(shù)據(jù)庫(kù)產(chǎn)品Amazon Redshift以及Amazon Database Migration Service(Amazon DMS)等數(shù)據(jù)庫(kù)產(chǎn)品,皮爺咖啡在1個(gè)月內(nèi),快速構(gòu)建了敏捷的數(shù)據(jù)架構(gòu),加速數(shù)據(jù)治理進(jìn)程。

640.jpg

皮爺咖啡采用的亞馬遜云科技的產(chǎn)品及服務(wù)包括:Amazon Redshift,Amazon Kinesis Data Streams,Amazon Lambda,Amazon Glue,Amazon Athena,Amazon Lake formation,Amazon DMS。

機(jī)會(huì) 未經(jīng)治理的數(shù)據(jù)“一口水,一口井”

皮爺咖啡是包裝和連鎖咖啡巨頭JDE旗下的精品咖啡品牌,始終秉承著打造極致咖啡體驗(yàn)的理念。在中國(guó),皮爺咖啡也在迅速發(fā)展,伴隨著業(yè)務(wù)的迅速擴(kuò)張,皮爺咖啡迅速意識(shí)到需要構(gòu)建對(duì)應(yīng)的數(shù)據(jù)治理機(jī)制,去建設(shè)大數(shù)據(jù)平臺(tái)。皮爺咖啡數(shù)據(jù)架構(gòu)師馮亞?wèn)|強(qiáng)調(diào):“2023年是皮爺咖啡的數(shù)字化里程碑的一年,我們對(duì)數(shù)據(jù)治理的要求非常明確,就是敏捷。敏捷的定義是:沒(méi)什么做不了,沒(méi)什么不能改,不需要從頭來(lái),不需要等太久。我們做數(shù)據(jù),數(shù)據(jù)驅(qū)動(dòng)是繞不開(kāi)的話題,如果驅(qū)動(dòng)不好做,十有八九是不夠敏捷?!?/p>

皮爺咖啡對(duì)于數(shù)據(jù)治理的要求非常明確:打破數(shù)據(jù)孤島,構(gòu)建敏捷的數(shù)據(jù)系統(tǒng),具備高效的數(shù)據(jù)整合與流動(dòng)能力,實(shí)現(xiàn)業(yè)務(wù)部門對(duì)數(shù)據(jù)平臺(tái)建設(shè)的較高參與度。在這之中,主要挑戰(zhàn)有如下幾點(diǎn):

·業(yè)務(wù)數(shù)據(jù)庫(kù)繁雜、分散:由于歷史原因,皮爺業(yè)務(wù)數(shù)據(jù)庫(kù)有本地IDC的服務(wù)器、也包含其他云平臺(tái)的服務(wù)器,數(shù)倉(cāng)種類包含RDB、NoSQL等,種類繁多,場(chǎng)景類別多樣。因此需要一個(gè)通用的、非線性方式解決數(shù)據(jù)集成問(wèn)題;

·數(shù)據(jù)治理:數(shù)據(jù)血緣元數(shù)據(jù)產(chǎn)品的核心能力,是大數(shù)據(jù)系統(tǒng)的老大難問(wèn)題。數(shù)據(jù)血緣管理、數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)指標(biāo)管理,都需要優(yōu)化迭代,并適配皮爺咖啡的開(kāi)源解決方案;

·數(shù)據(jù)應(yīng)用:皮爺咖啡在搭建數(shù)據(jù)中臺(tái)的關(guān)鍵思考就是需要滿足現(xiàn)有場(chǎng)景,并賦能業(yè)務(wù)人員可以省心省時(shí)省力運(yùn)用和分析數(shù)據(jù)。

“皮爺咖啡基于云原生數(shù)據(jù)倉(cāng)庫(kù)Amazon Redshift與dbt?構(gòu)建了敏捷的數(shù)據(jù)治理架構(gòu)。在這套架構(gòu)下,我們?cè)?分鐘之內(nèi)可以完成兩天增量數(shù)據(jù)的全部計(jì)算處理過(guò)程。”

馮亞?wèn)| 皮爺咖啡數(shù)據(jù)架構(gòu)師

解決方案 1個(gè)月構(gòu)建敏捷彈性的智能湖倉(cāng)架構(gòu),打破數(shù)據(jù)孤島

針對(duì)以上痛點(diǎn),亞馬遜云科技與皮爺咖啡進(jìn)行深入討論,最終確認(rèn)了圍繞“以訂單系統(tǒng)為核心的數(shù)據(jù)主線”完成一期開(kāi)發(fā),添枝加葉,完善服務(wù)。

數(shù)據(jù)攝入:Serverless免運(yùn)維架構(gòu),構(gòu)建數(shù)據(jù)攝入能力

針對(duì)于皮爺咖啡多樣的數(shù)據(jù)源類型,亞馬遜云科技將數(shù)據(jù)源分成三種類別:面對(duì)熱數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù),也是高實(shí)時(shí)要求的數(shù)據(jù),皮爺咖啡充分利用Amazon DMS自動(dòng)化遷移功能,實(shí)現(xiàn)數(shù)據(jù)庫(kù)和分析工作負(fù)載的快速遷移和CDC(自動(dòng)數(shù)據(jù)攝?。?,并盡可能減少停機(jī)時(shí)間和杜絕數(shù)據(jù)丟失,并經(jīng)由Amazon DMS直接進(jìn)入云原生數(shù)據(jù)倉(cāng)庫(kù)Amazon Redshift進(jìn)行分析;面對(duì)企業(yè)應(yīng)用端、更加復(fù)雜的非結(jié)構(gòu)化熱數(shù)據(jù),則通過(guò)Amazon Kinesis Data Streams進(jìn)行實(shí)時(shí)的流數(shù)據(jù)分析,并通過(guò)Serverless架構(gòu)的Amazon Lambda,對(duì)數(shù)據(jù)進(jìn)行處理;而面對(duì)冷數(shù)據(jù)、存取比比較低的非結(jié)構(gòu)化數(shù)據(jù),則通過(guò)Amazon Glue存儲(chǔ)在數(shù)據(jù)湖Amazon S3中,從而降低計(jì)算成本和存儲(chǔ)成本,最終實(shí)現(xiàn)良好的冷、熱、溫?cái)?shù)據(jù)分層和隔離。

640.png

皮爺咖啡基于亞馬遜云科技的系統(tǒng)架構(gòu)示意圖

數(shù)據(jù)分析:運(yùn)用冷熱分離的智能湖倉(cāng)架構(gòu)實(shí)現(xiàn)降本增效

為了將不同結(jié)構(gòu)、不同類型、不同來(lái)源的皮爺咖啡相關(guān)數(shù)據(jù)匯總起來(lái)并加以分析、獲得見(jiàn)解,亞馬遜云科技運(yùn)用Amazon S3、Amazon Lake formation、Amazon Redshift構(gòu)建起了冷熱分離的湖倉(cāng)一體架構(gòu),數(shù)據(jù)通過(guò)Amazon S3在亞馬遜云科技體系及開(kāi)源體系流轉(zhuǎn)。其中,云原生數(shù)據(jù)倉(cāng)庫(kù)Amazon Redshift可提供強(qiáng)大的SQL功能,對(duì)智能湖倉(cāng)存儲(chǔ)內(nèi)的超大型數(shù)據(jù)集進(jìn)行快速在線分析處理(OLAP)。

此外,該數(shù)據(jù)庫(kù)還提供并發(fā)擴(kuò)展功能,可在幾秒鐘內(nèi)啟動(dòng)更多瞬態(tài)集群,借此支持幾乎無(wú)限數(shù)量的并發(fā)查詢,最終在Amazon Redshift的幫助下,皮爺咖啡能夠輕松實(shí)現(xiàn)2分鐘之內(nèi)完成兩天增量的計(jì)算任務(wù)。馮亞?wèn)|肯定道:“現(xiàn)階段我們積累了皮爺咖啡從成立到現(xiàn)在所有時(shí)期不同的迭代版本數(shù)據(jù)的全面打通,不同數(shù)據(jù)源都落地在Amazon Redshift節(jié)點(diǎn)中,實(shí)現(xiàn)了數(shù)據(jù)的聯(lián)邦查詢。”

最后,冷熱分離的湖倉(cāng)一體架構(gòu)支持分層存儲(chǔ),從而幫助皮爺咖啡實(shí)現(xiàn)成本的高度優(yōu)化,數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)之間的原生集成,可以允許客戶從倉(cāng)庫(kù)存儲(chǔ)中移出大量訪問(wèn)頻率較低的歷史數(shù)據(jù),并降低存儲(chǔ)成本。

數(shù)據(jù)開(kāi)發(fā):開(kāi)源DBT構(gòu)建數(shù)據(jù)開(kāi)發(fā)流程,實(shí)現(xiàn)數(shù)據(jù)血緣

針對(duì)于數(shù)據(jù)開(kāi)發(fā)層面,基于Amazon Redshift Data Sharing的能力,數(shù)據(jù)開(kāi)發(fā)工程師可以在不同的Redshift集群之間共享數(shù)據(jù),并在這個(gè)過(guò)程中對(duì)數(shù)據(jù)進(jìn)行脫敏。

憑借該能力,皮爺咖啡的開(kāi)發(fā)工程師可以基于開(kāi)源工具DBT(Data Build Tool)進(jìn)行數(shù)據(jù)開(kāi)發(fā),形成數(shù)據(jù)管道腳本。并在開(kāi)發(fā)結(jié)束后,經(jīng)過(guò)CI/CD(持續(xù)集成,持續(xù)部署)流程進(jìn)行數(shù)據(jù)提交,保障提交到生產(chǎn)環(huán)境的數(shù)據(jù)沒(méi)有質(zhì)量問(wèn)題,最終,將整個(gè)數(shù)據(jù)的語(yǔ)義層信息,包括數(shù)據(jù)目錄、血緣關(guān)系、數(shù)據(jù)質(zhì)量檢測(cè)的結(jié)果都通過(guò)統(tǒng)一的途徑發(fā)布給數(shù)據(jù)的消費(fèi)者——也就是業(yè)務(wù)人員,讓業(yè)務(wù)人員可以快速根據(jù)語(yǔ)義信息,業(yè)務(wù)含義搜索到數(shù)據(jù)資產(chǎn),查看數(shù)據(jù)質(zhì)量,并通過(guò)血緣關(guān)系找到數(shù)據(jù)的來(lái)龍去脈,從而對(duì)數(shù)據(jù)進(jìn)行分析。

成果 優(yōu)雅、敏捷數(shù)據(jù)架構(gòu),讓咖啡師也能上手做數(shù)據(jù)分析

憑借亞馬遜云科技智能湖倉(cāng)架構(gòu),皮爺咖啡實(shí)現(xiàn)了數(shù)據(jù)資產(chǎn)的快速落地,從規(guī)劃到整個(gè)中臺(tái)系統(tǒng)搭建完成,皮爺咖啡只用了1個(gè)月的時(shí)間就實(shí)現(xiàn)了生產(chǎn)數(shù)據(jù)的上線,如果按照傳統(tǒng)的方式進(jìn)行建設(shè),這個(gè)時(shí)間可能會(huì)延長(zhǎng)30%-40%。

現(xiàn)如今,皮爺咖啡的業(yè)務(wù)單元正在逐步接入大數(shù)據(jù)平臺(tái)中,包含HR系統(tǒng)(人力資源管理系統(tǒng))、訂單管理系統(tǒng)、ERP系統(tǒng)(企業(yè)資源計(jì)劃)、會(huì)員中心、訂單中心以及營(yíng)銷中心等。以DBT為例,該系統(tǒng)中,皮爺咖啡目前已經(jīng)可以提供超過(guò)260個(gè)模型為業(yè)務(wù)部門使用,實(shí)現(xiàn)了數(shù)據(jù)分析的工程化、數(shù)據(jù)中臺(tái)的產(chǎn)品化,并提供給更多的業(yè)務(wù)部門復(fù)用。正如馮亞?wèn)|所預(yù)言的那樣,皮爺咖啡的大數(shù)據(jù)平臺(tái)正在枝繁葉茂的方向邁進(jìn)。

640 (1).jpg

在談到敏捷的數(shù)據(jù)治理架構(gòu)為皮爺咖啡帶來(lái)的收益時(shí),馮亞?wèn)|提到了“融合創(chuàng)新”為我們講述了一個(gè)咖啡師的故事:“4月份新加入數(shù)據(jù)團(tuán)隊(duì)的成員,原先是一位咖啡師。在構(gòu)建好數(shù)據(jù)中臺(tái)后,現(xiàn)在BI層面的問(wèn)題,我已經(jīng)完全不用關(guān)注了,這位咖啡師——現(xiàn)在是數(shù)據(jù)分析師同事,他已經(jīng)可以完全可以自主對(duì)接需求,實(shí)現(xiàn)了BPIT(業(yè)務(wù)流程信息化)。這得益于我們基于亞馬遜云科技解決方案所設(shè)計(jì)出的,對(duì)于架構(gòu)設(shè)計(jì)的分層與良好隔離,可以讓業(yè)務(wù)人員以較低門檻參與到業(yè)務(wù)中來(lái),讓數(shù)據(jù)變的簡(jiǎn)單、有親和力?!?/p>

未來(lái),皮爺咖啡將會(huì)繼續(xù)基于一條數(shù)據(jù)主線的架構(gòu),打開(kāi)局面,基于Data Vault建模方法,對(duì)來(lái)自多個(gè)系統(tǒng)的的數(shù)據(jù)進(jìn)行長(zhǎng)期歷史存儲(chǔ),添加更多功能,讓整個(gè)技術(shù)架構(gòu)向更優(yōu)雅的方向演進(jìn)。

關(guān)于皮爺咖啡

640 (2).jpg

皮爺咖啡(Peet’s Coffee)是美國(guó)精品咖啡品牌,于2017年進(jìn)入中國(guó),為中國(guó)消費(fèi)者帶來(lái)傳統(tǒng)經(jīng)典咖啡飲品,并特別呈現(xiàn)更加豐富的品質(zhì)咖啡飲品體驗(yàn)。通過(guò)深入應(yīng)用亞馬遜云科技云原生數(shù)據(jù)庫(kù)產(chǎn)品Amazon Redshift以及Amazon Database Migration Service(Amazon DMS)等數(shù)據(jù)庫(kù)產(chǎn)品,皮爺咖啡在1個(gè)月內(nèi),快速構(gòu)建了敏捷的數(shù)據(jù)架構(gòu),加速數(shù)據(jù)治理進(jìn)程。皮爺咖啡采用的亞馬遜云科技的產(chǎn)品及服務(wù)包括:Amazon Redshift,Amazon Kinesis Data Streams,Amazon Lambda,Amazon Glue,Amazon Athena,Amazon Lake formation,Amazon DMS。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來(lái)源:亞馬遜云科技
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于亞馬遜云科技,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家