“理想解決方案”:Daltix的自動(dòng)化數(shù)據(jù)湖歸檔節(jié)省了10萬(wàn)美元

來(lái)源:AI前線
作者:Amrit Singh
時(shí)間:2022-11-16
2331
在快消領(lǐng)域,Daltix 是提供完整、透明、高質(zhì)量零售數(shù)據(jù)的先行者

微信圖片_20221116152512.png

在快消領(lǐng)域,Daltix 是提供完整、透明、高質(zhì)量零售數(shù)據(jù)的先行者。GFK 和聯(lián)合利華等全球行業(yè)領(lǐng)導(dǎo)者依靠他們的定價(jià)、產(chǎn)品、促銷和位置數(shù)據(jù)來(lái)制定入市策略并做出關(guān)鍵決策,對(duì) Daltix 來(lái)說(shuō),維護(hù)一個(gè)可靠的數(shù)據(jù)生態(tài)系統(tǒng)勢(shì)在必行。

自 2016 年成立以來(lái),隨著公司的發(fā)展,Daltix 處理的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)。他們目前管理著大約 250TB 的數(shù)據(jù),分散在數(shù)十億個(gè)文件中,很快就造成了巨大的時(shí)間和資源消耗。Daltix 的基礎(chǔ)設(shè)施幾乎完全是圍繞 AWS 構(gòu)建,因?yàn)樾枰芾頂?shù)十億個(gè)極小的文件,所以在可擴(kuò)展性和成本效益方面,AWS 的存儲(chǔ)選項(xiàng)已經(jīng)開(kāi)始無(wú)法滿足他們的需求。

微信圖片_20221116152516.png

比利時(shí)的Daltix團(tuán)隊(duì)

我們與 Daltix 首席軟件工程師 Charlie Orford 進(jìn)行了交流,了解他們?nèi)绾芜w移到 Backblaze B2 云存儲(chǔ)以及他們從那個(gè)過(guò)程中得出了什么結(jié)論。以下是其中的一些要點(diǎn):

  • 他們使用一個(gè)自定義引擎將數(shù)十億個(gè)文件從 AWS S3 遷移到 Backblaze B2;
  • 月度成本減少了 2500 美元,數(shù)據(jù)的可移植性和可靠性都得到了提升;
  • Daltix 創(chuàng)建的基礎(chǔ)設(shè)施每天可以自動(dòng)備份 840 萬(wàn)個(gè)數(shù)據(jù)對(duì)象。

請(qǐng)繼續(xù)閱讀,看看他們是如何做到的。

一個(gè)基于 AWS 構(gòu)建的復(fù)雜數(shù)據(jù)管道

Daltix 在公司創(chuàng)立初期創(chuàng)建的基于 S3 的基礎(chǔ)設(shè)施,大部分還完好無(wú)損。過(guò)去,數(shù)據(jù)管道將從網(wǎng)絡(luò)上抓取的資源直接寫入 Amazon S3,經(jīng)由基于 Lambda 的提取器進(jìn)行標(biāo)準(zhǔn)化后,再發(fā)送回 S3。然后,由 AWS Batch 選取要使用其他數(shù)據(jù)源進(jìn)行補(bǔ)充和豐富的資源。

所有這些步驟都是在 Daltix 的分析師團(tuán)隊(duì)準(zhǔn)備好數(shù)據(jù)之前進(jìn)行的。為了優(yōu)化流程并提高效率,Orford 開(kāi)始將該流程的部分環(huán)節(jié)納入到 Kubernetes 中,但數(shù)據(jù)存儲(chǔ)仍然存在問(wèn)題;Daltix 每天生成大約 300GB 的壓縮數(shù)據(jù),而且這個(gè)數(shù)值還在迅速增長(zhǎng)?!半S著數(shù)據(jù)收集規(guī)模的擴(kuò)大,我們必須更加關(guān)注成本控制、數(shù)據(jù)可移植性和可靠性,”O(jiān)rford 說(shuō),“這些都是顯而易見(jiàn)的,但規(guī)模大了,就更加重要了?!?/p>

成本方面的考量促使我們,尋找更友好的歸檔存儲(chǔ)

到 2020 年,Daltix 開(kāi)始意識(shí)到,在 AWS 中構(gòu)建這么多基礎(chǔ)設(shè)施存在局限性。例如,圍繞 S3 元數(shù)據(jù)進(jìn)行的大量定制使得移動(dòng)對(duì)象的能力完全受制于目標(biāo)系統(tǒng)與 S3 的兼容性。Orford 還擔(dān)心,在 S3 中永久存儲(chǔ)如此巨大的數(shù)據(jù)湖的成本。如他所言,“很明顯,沒(méi)有必要把所有東西都永遠(yuǎn)存在 S3 中。如果不采取任何措施,那么我們的 S3 成本將繼續(xù)上升,并最終遠(yuǎn)遠(yuǎn)超出我們使用其他 AWS 服務(wù)的成本?!?/p>

微信圖片_20221116152521.png

服務(wù)器成本對(duì)比

因?yàn)?Daltix 要處理數(shù)十億個(gè)小文件,所以不可能使用 Glacier,因?yàn)樗亩▋r(jià)模式是基于檢索費(fèi)用的。即使是使用 Glacier 即時(shí)檢索,Daltix 所處理的文件數(shù)量也會(huì)使他們每年額外支付 20 萬(wàn)美元的費(fèi)用。因此,Daltix 的數(shù)據(jù)收集團(tuán)隊(duì)(公司 85% 以上的數(shù)據(jù)都來(lái)自這個(gè)團(tuán)隊(duì))推動(dòng)實(shí)施了一種可替代的解決方案,解決了一些相互矛盾的問(wèn)題:

  • 數(shù)據(jù)湖的龐大規(guī)模;
  • 需要將原始資源存儲(chǔ)為離散文件(這意味著無(wú)法進(jìn)行批處理);
  • 團(tuán)隊(duì)能夠投入的時(shí)間和精力有限;
  • 簡(jiǎn)化解決方案,以保證其可靠性。

Daltix 決定使用 Amazon S3 進(jìn)行熱存儲(chǔ),并將暖存儲(chǔ)轉(zhuǎn)移到新的歸檔解決方案中,這可以降低成本,同時(shí)保持重要數(shù)據(jù)可訪問(wèn)——即使目的是將文件存儲(chǔ)在別處。Orford 說(shuō):“重要的是要找到某個(gè)非常容易集成而且開(kāi)發(fā)風(fēng)險(xiǎn)低的東西,并且有助于降低我們的成本。對(duì)我們來(lái)說(shuō),Backblaze 確實(shí)可以滿足所有要求?!?/p>

只是初步遷移每月就立省 2000 美元

在開(kāi)始全面遷移之前,Orford 和他的團(tuán)隊(duì)做了概念驗(yàn)證(POC),以確保解決方案解決了他們重點(diǎn)關(guān)注的問(wèn)題:

  • 確保海量數(shù)據(jù)成功遷移;
  • 避免數(shù)據(jù)損壞并使用審計(jì)日志檢查錯(cuò)誤;
  • 保留每個(gè)對(duì)象的自定義元數(shù)據(jù)。

“早期,我們與 Backblaze 合作,定制了一個(gè)可以滿足我們所有需求的遷移工具,”O(jiān)rford 說(shuō),“這給了我們繼續(xù)前進(jìn)的信心。”Backblaze 為我們定制了一個(gè)遷移引擎,可以保證遷移過(guò)程能夠可靠地傳輸整個(gè)數(shù)據(jù)湖,并且保證對(duì)象級(jí)元數(shù)據(jù)完好無(wú)損。在成功遷移了一開(kāi)始的 POC 存儲(chǔ)桶之后,Daltix 就擁有了開(kāi)始建模和預(yù)測(cè)未來(lái)成本所需的一切。Orford 說(shuō)道:“在開(kāi)始接觸 Backblaze 之后,我們便不再尋找其他選項(xiàng)“。

2021 年 8 月,Daltix 將一個(gè)包含 22 億個(gè)對(duì)象的 120TB 的存儲(chǔ)桶從 S3 的標(biāo)準(zhǔn)存儲(chǔ)轉(zhuǎn)移到 Backblaze B2 云存儲(chǔ)。僅最初的遷移就立即節(jié)省了 2000 美元 / 月或 24000 美元 / 年的成本。

微信圖片_20221116152527.png

寧?kù)o的數(shù)據(jù)湖

三倍的數(shù)據(jù),直接兼容 S3,累計(jì)節(jié)省 10 萬(wàn)美元

現(xiàn)在,Daltix 每天從 Amazon S3 向 Backblaze B2 遷移 320 萬(wàn)個(gè)數(shù)據(jù)對(duì)象(大約 160GB 的數(shù)據(jù))。他們?cè)?S3 中保存了 18 個(gè)月的熱數(shù)據(jù),一旦一個(gè)對(duì)象存在達(dá) 18 個(gè)月零一天,就會(huì)被歸檔到 B2 中。在少數(shù)情況下,Daltix 也會(huì)接收到請(qǐng)求 18 個(gè)月窗口期之外的數(shù)據(jù)的請(qǐng)求,由于 Backblaze 的 API 兼容 S3 且數(shù)據(jù)永遠(yuǎn)可用,所以他們可以直接將數(shù)據(jù)從 Backblaze B2 拉到 Amazon S3。

每日審計(jì)日志會(huì)匯總已傳輸?shù)臄?shù)據(jù)量,整個(gè)遷移過(guò)程每天自動(dòng)執(zhí)行。Orford 說(shuō):“它在后臺(tái)運(yùn)行,我們不需要管理任何東西,什么都可以看到,而且很劃算。對(duì)我們來(lái)說(shuō),Backblaze B2 是一個(gè)理想的解決方案?!?/p>

隨著每日數(shù)據(jù)收集量的增加,會(huì)有越來(lái)越多的數(shù)據(jù)從熱存儲(chǔ)窗口中遷出,Orford 預(yù)計(jì)成本會(huì)進(jìn)一步降低。據(jù) Orford 估計(jì),日遷移量將在大約一年半后接近目前水平的三倍:這意味著 Daltix 每天將向 Backblaze B2 備份 900 萬(wàn)個(gè)對(duì)象(約 450GB 數(shù)據(jù))。長(zhǎng)遠(yuǎn)來(lái)看,從 Amazon S3 切換到 Backblaze B2 為 Daltix 節(jié)省的成本都令人難以置信。Orford 說(shuō):“因?yàn)槭褂昧?Backblaze B2,預(yù)計(jì)到 2023 年,我們?cè)诖鎯?chǔ)支出上將累計(jì)節(jié)省 7.5 萬(wàn)至 10 萬(wàn)美元,每年至少節(jié)省 3 萬(wàn)美元?!?/p>

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來(lái)源:AI前線
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于AI前線,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼關(guān)注
獲取更多出海資訊的相關(guān)信息
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家