首頁合作企業(yè)服務

開發(fā)者出海圈專欄專題數(shù)據(jù)報告問答活動

跨境電商出海排行榜

搜索

發(fā)布合作

使用Apache Hudi + Amazon S3 + AWS DMS構建數(shù)據(jù)湖（下）

來源：知乎

作者：ApacheHudi

時間：2020-11-11

在這篇文章中，我們看到如何在Amazon EMR上使用AWS DMS和HoodieDeltaStreamer輕松構建解決方案。

接下來查詢數(shù)據(jù)并查看目錄中retail_transactions表的數(shù)據(jù)。

1.在先前建立的Systems Manager會話中，運行以下命令（確保已完成post的所有先前條件，包括在Lake Formation中將IAMAllowedPrincipals添加為數(shù)據(jù)庫創(chuàng)建者）：

```shell spark-shell --conf "spark.serializer=org.apache.spark.serializer.KryoSerializer" --conf "spark.sql.hive.convertMetastoreParquet=false" \ --packages org.apache.hudi:hudi-spark-bundle_2.11:0.5.2-incubating,org.apache.spark:spark-avro_2.11:2.4.5 \ --jars /usr/lib/hudi/hudi-spark-bundle_2.11-0.5.2-incubating.jar,/usr/lib/spark/external/lib/spark-avro.jar

```

2.對retail_transactions表運行以下查詢：

sql spark.sql("select * from hudiblogdb.retail_transactions order by tran_id").show()

接著可以在表中看到與MySQL數(shù)據(jù)庫相同的數(shù)據(jù)，其中有幾個列是由HoodieDeltaStreamer自動添加Hudi元數(shù)據(jù)。

現(xiàn)在在MySQL數(shù)據(jù)庫上運行一些DML語句，并將這些更改傳遞到Hudi數(shù)據(jù)集。

1.在MySQL數(shù)據(jù)庫上運行以下DML語句

insert into dev.retail_transactions values(15,'2019-03-16',7,'CHICAGO','IL','XXXXXX',17,126.25);

update dev.retail_transactions set store_city='SPRINGFIELD' where tran_id=12;

delete from dev.retail_transactions where tran_id=2;

幾分鐘后將看到在S3存儲桶中的dmsdata/dev/retail_transactions文件夾下創(chuàng)建了一個新的.parquet文件。

1.在EMR集群上運行以下命令，將增量數(shù)據(jù)獲取到Hudi數(shù)據(jù)集（將<s3 bucket name>替換為CloudFormation模板創(chuàng)建的s3 bucket的名稱）：

shell spark-submit --class org.apache.hudi.utilities.deltastreamer.HoodieDeltaStreamer \ --packages org.apache.hudi:hudi-utilities-bundle_2.11:0.5.2-incubating,org.apache.spark:spark-avro_2.11:2.4.5 \ --master yarn --deploy-mode cluster \ --conf spark.serializer=org.apache.spark.serializer.KryoSerializer \ --conf spark.sql.hive.convertMetastoreParquet=false \ /usr/lib/hudi/hudi-utilities-bundle_2.11-0.5.2-incubating.jar \ --table-type COPY_ON_WRITE \ --source-ordering-field dms_received_ts \ --props s3://<s3-bucket-name>/properties/dfs-source-retail-transactions-incremental.properties \ --source-class org.apache.hudi.utilities.sources.ParquetDFSSource \ --target-base-path s3://<s3-bucket-name>/hudi/retail_transactions --target-table hudiblogdb.retail_transactions \ --transformer-class org.apache.hudi.utilities.transform.SqlQueryBasedTransformer \ --payload-class org.apache.hudi.payload.AWSDmsAvroPayload \ --schemaprovider-class org.apache.hudi.utilities.schema.FilebasedSchemaProvider \ --enable-hive-sync \ --checkpoint 0

此命令與上一個命令之間的關鍵區(qū)別在于屬性文件，該文件包含–-props和--checkpoint參數(shù)，對于先前執(zhí)行全量加載的命令，我們使用dfs-source-retail-transactions-full.properties進行全量加載、dfs-source-retail-transactions-incremental.properties進行增量加載，這兩個屬性文件之間的區(qū)別是：

·源數(shù)據(jù)的位置在AmazonS3中的全量數(shù)據(jù)和增量數(shù)據(jù)之間發(fā)生變化。

·SQL transformer查詢包含了一個全量任務的Op字段，因為AWS DMS首次全量加載不包括parquet數(shù)據(jù)集的Op字段，Op字段可有I、U和D值，表示插入、更新和刪除。

本文后面的"部署到生產環(huán)境時的注意事項"部分討論--checkpoint參數(shù)的詳細信息。

1.作業(yè)完成后，在spark shell中運行相同的查詢。

將會看到這些更新應用于Hudi數(shù)據(jù)集。

另外還可以使用Hudi Cli來管理Hudi數(shù)據(jù)集，以查看有關提交、文件系統(tǒng)、統(tǒng)計信息等的信息。

1.為此在Systems Manager會話中，運行以下命令

sql /usr/lib/hudi/cli/bin/hudi-cli.sh

2.在Hudi Cli中，運行以下命令（將<s3 bucket name>替換為CloudFormation模板創(chuàng)建的s3 bucket的名稱）：

sql connect --path s3://<s3-bucket-name>/hudi/retail_transactions

3.要檢查Hudi數(shù)據(jù)集上的提交（commit），請運行以下命令

sql commits show

還可以從Hudi數(shù)據(jù)集查詢增量數(shù)據(jù)，這對于希望將增量數(shù)據(jù)用于下游處理（如聚合）時非常有用，Hudi提供了多種增量提取數(shù)據(jù)的方法，Hudi快速入門指南中提供了如何使用此功能的示例。

6. 部署到生產環(huán)境時的注意事項

前面展示了一個如何從關系數(shù)據(jù)庫到基于Amazon S3的數(shù)據(jù)湖構建CDC管道的示例，但如果要將此解決方案用于生產，則應考慮以下事項：

·為了確保高可用性，可以在多AZ配置中設置AWS-DMS實例。

·CloudFormation將deltastreamer實用程序所需的屬性文件部署到S3://<s3bucket name>/properties/處的S3 bucket中，你可以根據(jù)需求定制修改，其中有幾個參數(shù)需要注意

·deltastreamer.transformer.sql – 此屬性是Deltastreamer實用程序的一個非常強大的特性：它使您能夠在數(shù)據(jù)被攝取并保存在Hudi數(shù)據(jù)集中時動態(tài)地轉換數(shù)據(jù)，在本文中，我們展示了一個基本的轉換，它將tran_date列強制轉換為字符串，但是您可以將任何轉換作為此查詢的一部分應用。

·parquet.small.file.limit– 此字段以字節(jié)為單位，是一個關鍵存儲配置，指定Hudi如何處理Amazon S3上的小文件，由于每個分區(qū)的每個插入操作中要處理的記錄數(shù)，可能會出現(xiàn)小文件，設置此值允許Hudi繼續(xù)將特定分區(qū)中的插入視為對現(xiàn)有文件的更新，從而使文件的大小小于此值small.file.limit被重寫。

·parquet.max.file.size – 這是Hudi數(shù)據(jù)集中單個parquet文件的最大文件大小，之后將創(chuàng)建一個新文件來存儲更多數(shù)據(jù)。對于Amazon S3的存儲和數(shù)據(jù)查詢需求，我們可以將其保持在256MB-1GB（256x1024x1024=268435456）。

·[Insert|Upsert|bulkinsert].shuffle.parallelism。本篇文章中我們只處理了少量記錄的小數(shù)據(jù)集。然而，在實際情況下可能希望在第一次加載時引入數(shù)億條記錄，然后增量CDC數(shù)據(jù)達百萬，當希望對每個Hudi數(shù)據(jù)集分區(qū)中的文件數(shù)量進行非?？深A測的控制時，需要設置一個非常重要的參數(shù)，這也需要確保在處理大量數(shù)據(jù)時，不會達到Apache Spark對數(shù)據(jù)shuffle的2GB限制。例如，如果計劃在第一次加載時加載200 GB的數(shù)據(jù)，并希望文件大小保持在大約256 MB，則將此數(shù)據(jù)集的shuffle parallelism參數(shù)設置為800（200×1024/256）。有關詳細信息，請參閱調優(yōu)指南。

·在增量加載deltastreamer命令中，我們使用了一個附加參數(shù)：--checkpoint 0。當Deltastreamer寫Hudi數(shù)據(jù)集時，它將檢查點信息保存在.hoodie文件夾下的.commit文件中，它在隨后的運行中使用這些信息，并且只從Amazon S3讀取數(shù)據(jù)，后者是在這個檢查點時間之后創(chuàng)建的，在生產場景中，在啟動AWS-DMS任務之后，只要完成全量加載，該任務就會繼續(xù)向目標S3文件夾寫入增量數(shù)據(jù)。在接下來的步驟中，我們在EMR集群上運行了一個命令，將全量文件手動移動到另一個文件夾中，并從那里處理數(shù)據(jù)。當我們這樣做時，與S3對象相關聯(lián)的時間戳將更改為最新的時間戳，如果在沒有checkpoint參數(shù)的情況下運行增量加載，deltastreamer在手動移動滿載文件之前不會提取任何寫入Amazon S3的增量數(shù)據(jù)，要確保Deltastreamer第一次處理所有增量數(shù)據(jù)，請將檢查點設置為0，這將使它處理文件夾中的所有增量數(shù)據(jù)。但是，只對第一次增量加載使用此參數(shù)，并讓Deltastreamer從該點開始使用自己的檢查點方法。

·對于本文，我們手動運行Spark submit命令，但是在生產集群中可以運行這一步驟。

·可以使用調度或編排工具安排增量數(shù)據(jù)加載命令以固定間隔運行，也可以通過向spark submit命令傳遞附加參數(shù)--min-sync-interval-seconds *XX* –continuous，以特定的頻率以連續(xù)方式運行它，其中XX是數(shù)據(jù)拉取每次運行之間的秒數(shù)。例如，如果要每5分鐘運行一次處理，請將XX替換為300。

7. 清理

當完成對解決方案的探索后，請完成以下步驟以清理CloudFormation部署的資源

·清空CloudFormation堆棧創(chuàng)建的S3 bucket

·刪除在s3://<EMR-Logs-s3-Bucket>/HudiBlogEMRLogs/下生成的任何Amazon EMR日志文件。

·停止AWS DMS任務Hudiblogload。

·刪除CloudFormation。

·刪除CloudFormation模板后保留的所有Amazon RDS for MySQL數(shù)據(jù)庫快照。

8. 結束

越來越多的數(shù)據(jù)湖構建在Amazon S3，當對數(shù)據(jù)湖的數(shù)據(jù)進行變更時，使用傳統(tǒng)方法處理數(shù)據(jù)刪除和更新涉及到許多繁重的工作，在這篇文章中，我們看到了如何在Amazon EMR上使用AWS DMS和HoodieDeltaStreamer輕松構建解決方案。我們還研究了在將數(shù)據(jù)集成到數(shù)據(jù)湖時如何執(zhí)行輕量級的記錄級轉換，以及如何將這些數(shù)據(jù)用于聚合等下游流程。我們還討論了使用的重要設置和命令行選項，以及如何修改它們以滿足個性化的需求。

立即登錄，閱讀全文

AWS 亞馬遜云服務

上一篇：使用Apache Hudi + Amazon S3 + AWS DMS構建數(shù)據(jù)湖（上）

版權說明：

本文內容來自于知乎，本站不擁有所有權，不承擔相關法律責任。文章內容系作者個人觀點，不代表快出海對觀點贊同或支持。如有侵權，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關文章

AWS Trn2 UltraServers登場　64顆芯片組成超強運算大腦

AWS Trn2 UltraServers登場　64顆芯片組成超強運算大腦

在AI運算的競爭中，AWS公布了全新的Amazon EC2 Trn2 UltraServers。

亞馬遜云科技

2024-12-252024-12-25

AWS使AI使用門檻大幅下降　企業(yè)采用Amazon Bedrock節(jié)省90%開支

AWS使AI使用門檻大幅下降　企業(yè)采用Amazon Bedrock節(jié)省90%開支

在AI應用日益普及的今天，成本控制成了企業(yè)最頭痛的問題之一。

亞馬遜云科技

2024-12-252024-12-25

AWS推動AI創(chuàng)新　re:Invent大會宣布數(shù)據(jù)中心性能重大升級

AWS推動AI創(chuàng)新　re:Invent大會宣布數(shù)據(jù)中心性能重大升級

AWS 2024年度re:Invent會議在美國拉斯維加斯舉行，席間隆重宣布數(shù)據(jù)中心組件將會升級，結合了電源、冷卻和硬件設計方面的創(chuàng)新，令可用性和效率都大大提升。

亞馬遜云科技

2024-12-252024-12-25

Amazon EC2 Trn2實例正式可用，多款算力新品正式推出！

Amazon EC2 Trn2實例正式可用，多款算力新品正式推出！

在2024亞馬遜云科技re:Invent全球大會上，亞馬遜云科技宣布Amazon Trainium2 Server正式可用，并推出全新的Amazon Trainium2 UltraServer，讓用戶以優(yōu)越的性價比訓練和部署最新的人工智能模型，以及未來的大語言模型（LLM）和基礎模型。

亞馬遜云科技

2024-12-142024-12-14

AWS

AWS - 亞馬遜公司旗下云計算服務平臺,為世界各地的客戶提供一整套基礎設施和云解決方案。AWS面向用戶提供整套云計算服務，能夠幫助企業(yè)降低IT投入成本和維護成本，輕松上云。

1314

文章數(shù)

1447.9W+

瀏覽量

980

粉絲

熱門活動

更多

跨境電商新航向：一站式方案助力賣家多平臺高效運營掘金

2025騰訊云城市峰會（線上直播）

熱門文章

一文讀懂！PhotonPay光子卡開卡完整指南

一文讀懂！PhotonPay光子卡開卡完整指南

中國游戲與短劇海外狂飆，數(shù)娛出海如何贏在“支付”起跑線？

中國游戲與短劇海外狂飆，數(shù)娛出海如何贏在“支付”起跑線？

2025-07-03

987

「檸季」公布出海計劃，茶飲求增量，唯有向外？

「檸季」公布出海計劃，茶飲求增量，唯有向外？

2025-07-01

1789

Galaxy籌集$1.75億基金，聚焦Web3與加密應用

Galaxy籌集$1.75億基金，聚焦Web3與加密應用

2025-06-27

3069

游全球，付全球！PhotonPay光子易助推旅游企業(yè)掘金

游全球，付全球！PhotonPay光子易助推旅游企業(yè)掘金

2025-06-27

3215

優(yōu)質服務商推薦

更多

DLOCAL LLP

dLocal 在新興市場提供本地支付服務，連接全球企業(yè)商家與亞太地區(qū)、中東、拉丁美洲和非洲數(shù)十億新興市場消費者。通過“一站式 dLocal”理念（一個直接 API、一個平臺和一個合同），全球公司無需管理多個本地實體和集成，即可接受支付、發(fā)送付款并在全球范圍內結算資金。

廣州標品軟件有限公司

AdsPower 指紋瀏覽器

AdsPower 是一款專為跨境人打造的指紋瀏覽器，致力于解決出海賬號矩陣安全管理問題，目前已通過所有網(wǎng)站檢測。平臺提供獨特的指紋配置、專業(yè)的瀏覽器自動化、高效的團隊協(xié)作功能，為您的賬號環(huán)境保駕護航！

CCPayment

CCPayment 創(chuàng)立于2015年，是一家全球領先的加密支付服務商，支持900多種代幣，服務覆蓋加密代收、加密代付、多幣種結算與匯兌管理等，致力于為企業(yè)提供高效、安全、低成本的加密支付解決方案，平臺支持多種支付模式，集成便捷，并通過加密與風控技術全面保障資金安全，助力企業(yè)快速出海。

公司簡介

快出海是國內領先的互聯(lián)網(wǎng)出海合作平臺，通過整合行業(yè)優(yōu)質資源，為出海企業(yè)提供產品展示和資源對接平臺，助力中國互聯(lián)網(wǎng)企業(yè)走向全球。查看更多>

公司簡介

聯(lián)系我們免責申明合作伙伴

關注我們

微信訂閱號>

微信服務號>

快出海小程序>

聯(lián)系我們

快出海小程序

快出海公眾號