什么是 Azure Synapse Link for Azure Cosmos DB?

來源: Microsoft Azure
作者:Microsoft Azure
時間:2021-01-25
17955
Azure Synapse Link for Azure Cosmos DB是一種云原生混合事務(wù)和分析處理(HTAP)功能,可用于對Azure Cosmos DB中的操作數(shù)據(jù)運行準實時分析。Azure Synapse Link在Azure Cosmos DB和Azure Synapse Analytics之間建立緊密無縫的集成。

適用于:SQL api Azure Cosmos DB適用于MONGODB的api

重要

適用于Azure Cosmos DB的Azure Synapse鏈接的Synapse無服務(wù)器SQL池支持目前以預(yù)覽版提供。此預(yù)覽版在提供時沒有附帶服務(wù)級別協(xié)議,不建議將其用于生產(chǎn)工作負荷。有關(guān)詳細信息,請參閱Microsoft Azure預(yù)覽版補充使用條款。

Azure Synapse Link for Azure Cosmos DB是一種云原生混合事務(wù)和分析處理(HTAP)功能,可用于對Azure Cosmos DB中的操作數(shù)據(jù)運行準實時分析。Azure Synapse Link在Azure Cosmos DB和Azure Synapse Analytics之間建立緊密無縫的集成。

通過使用Azure Cosmos DB分析存儲(完全隔離的列存儲),Azure Synapse Link可以在Azure Synapse Analytics中針對大規(guī)模操作數(shù)據(jù)提供無提取-轉(zhuǎn)換-加載(ETL)分析。業(yè)務(wù)分析師、數(shù)據(jù)工程師和數(shù)據(jù)科學家現(xiàn)在可以互換使用Synapse Spark或Synapse SQL來運行準實時商業(yè)智能、分析和機器學習管道。可以實現(xiàn)此目的,而不會影響Azure Cosmos DB上的事務(wù)工作負荷的性能。

下圖顯示了Azure Synapse Link與Azure Cosmos DB和Azure Synapse Analytics的集成:

synapse-analytics-cosmos-db-architecture.png

優(yōu)勢

若要分析較大的操作數(shù)據(jù)集,同時最大限度地降低對任務(wù)關(guān)鍵型事務(wù)工作負荷性能的影響,通常情況下會通過提取-轉(zhuǎn)換-加載(ETL)管道提取并處理Azure Cosmos DB中的操作數(shù)據(jù)。ETL管道需要大量數(shù)據(jù)移動,這樣會增加操作復(fù)雜性,并對事務(wù)工作負荷產(chǎn)生性能影響。還會增加延遲以從原始時間分析操作數(shù)據(jù)。

與傳統(tǒng)的基于ETL的解決方案相比,Azure Synapse Link for Azure Cosmos DB提供了多種優(yōu)勢,例如:

降低了復(fù)雜性,無需管理ETL作業(yè)

借助Azure Synapse Link,可以使用Azure Synapse Analytics直接訪問Azure Cosmos DB分析存儲,無需進行復(fù)雜的數(shù)據(jù)移動。對操作數(shù)據(jù)所做的任何更新都準實時顯示在分析存儲中,不包含任何ETL或更改源作業(yè)。你可以從Azure Synapse Analytics針對分析存儲運行大規(guī)模分析,而無需進行額外的數(shù)據(jù)轉(zhuǎn)換。

準實時了解操作數(shù)據(jù)

使用Azure Synapse Link,現(xiàn)在可以準實時深入了解操作數(shù)據(jù)。由于有許多層要提取、轉(zhuǎn)換和加載操作數(shù)據(jù),因此基于ETL的系統(tǒng)在分析操作數(shù)據(jù)時往往會產(chǎn)生較高的延遲。通過Azure Cosmos DB分析存儲與Azure Synapse Analytics的本機集成,可以準實時分析操作數(shù)據(jù),從而啟用新的業(yè)務(wù)方案。

不會影響操作工作負荷

借助Azure Synapse Link,可以在使用事務(wù)工作負荷(基于行的事務(wù)存儲)的預(yù)配吞吐量處理事務(wù)操作時,針對Azure Cosmos DB分析存儲(單獨的列存儲)運行分析查詢。分析工作負荷獨立于事務(wù)工作負荷流量提供,無需使用為操作數(shù)據(jù)預(yù)配的任何吞吐量。

針對大規(guī)模分析工作負荷進行了優(yōu)化

Azure Cosmos DB分析存儲已經(jīng)過優(yōu)化,可為分析工作負荷提供可伸縮性、彈性和性能,無需依賴計算運行時。存儲技術(shù)是自行管理,可優(yōu)化分析工作負荷。通過對Azure Synapse Analytics的內(nèi)置支持,訪問此存儲層可提供簡單性和高性能。

經(jīng)濟高效

借助Azure Synapse Link,可以為運營分析獲取成本優(yōu)化且完全托管的解決方案。它消除了用于分析操作數(shù)據(jù)的傳統(tǒng)ETL管道所需的額外存儲層和計算層。

Azure Cosmos DB分析存儲遵循基于消耗的定價模型,該模型基于數(shù)據(jù)存儲和分析讀/寫操作以及已執(zhí)行的查詢。這不會要求你預(yù)配任何吞吐量,因為目前如此操作是為了事務(wù)工作負荷。通過Azure Synapse Analytics中極具彈性的計算引擎來訪問你的數(shù)據(jù),使運行存儲和計算的總體成本非常高效。

本地可用的分析、全球分布式多區(qū)域?qū)懭?/strong>

你可以高效地對Azure Cosmos DB中距離最近的區(qū)域的數(shù)據(jù)副本運行分析查詢。Azure Cosmos DB提供了最先進的功能,可按主動-主動的方式運行全球分發(fā)的分析工作負荷和事務(wù)工作負荷。

為操作數(shù)據(jù)啟用HTAP方案

Synapse Link匯集了Azure Cosmos DB分析存儲和Azure Synapse Analytics運行時支持。通過此集成,你可以構(gòu)建云原生HTAP(混合事務(wù)/分析處理)解決方案,該解決方案基于大型數(shù)據(jù)集的操作數(shù)據(jù)的實時更新生成見解。它可解鎖新的業(yè)務(wù)方案,以根據(jù)實時趨勢發(fā)出警報,構(gòu)建準實時儀表板并基于用戶行為生成業(yè)務(wù)體驗。

Azure Cosmos DB分析存儲

Azure Cosmos DB分析存儲是Azure Cosmos DB中的操作數(shù)據(jù)的面向列的表示形式。此分析存儲適用于對大型操作數(shù)據(jù)集進行快速且經(jīng)濟高效的查詢,無需復(fù)制數(shù)據(jù)和影響事務(wù)工作負荷的性能。

分析存儲準實時自動選擇事務(wù)工作負荷中的高頻率插入、更新、刪除,作為Azure Cosmos DB的完全托管功能(“自動同步”)。無需更改源或ETL。

若你擁有全局分發(fā)的Azure Cosmos DB帳戶,為容器啟用分析存儲后,它將適用于該帳戶的所有區(qū)域。有關(guān)分析存儲的詳細信息,請參閱Azure Cosmos DB分析存儲概述一文。

與Azure Synapse Analytics集成

借助Synapse Link,你現(xiàn)在可以直接從Azure Synapse Analytics連接到Azure Cosmos DB容器,并訪問沒有單獨連接器的分析存儲。Azure Synapse Analytics當前支持Synapse與Synapse Apache Spark和無服務(wù)器SQL池的鏈接。

可以在Azure Synapse Analytics支持的不同分析運行時間內(nèi)以互操作方式同時從Azure Cosmos DB分析存儲查詢數(shù)據(jù)。不需要其他數(shù)據(jù)轉(zhuǎn)換來分析操作數(shù)據(jù)??梢允褂靡韵聦ο髞聿樵兒头治龇治龃鎯?shù)據(jù):

完全支持Scala、Python、SparkSQL和C#的Synapse Apache Spark。Synapse Spark是數(shù)據(jù)工程和數(shù)據(jù)科學方案的核心

具有T-sql語言的無服務(wù)器SQL池和對熟悉的BI工具的支持(例如,Power BI Premium等)

備注

通過Azure Synapse Analytics,可以同時訪問Azure Cosmos DB容器中的分析存儲和事務(wù)存儲。但是,如果要對操作數(shù)據(jù)運行大規(guī)模分析或掃描,我們建議你使用分析存儲來避免對事務(wù)工作負荷的性能影響。

備注

可以通過將Azure Cosmos DB容器連接到Azure區(qū)域中的Synapse運行時,在該區(qū)域中以較低的延遲運行分析。

此集成可為不同用戶啟用以下HTAP方案:

BI工程師,想要對Power BI報表建模后將其發(fā)布,以便通過Synapse SQL直接訪問Azure Cosmos DB中的實時操作數(shù)據(jù)。

數(shù)據(jù)分析人員,想要通過使用Synapse SQL查詢Azure Cosmos DB容器中的操作數(shù)據(jù)來從中獲得見解,大規(guī)模讀取數(shù)據(jù)并將這些發(fā)現(xiàn)與其他數(shù)據(jù)源合并。

數(shù)據(jù)科學家,想要使用Synapse Spark查找一項功能來改善其模型并在不進行復(fù)雜的數(shù)據(jù)工程的情況下訓練該模型。他們還可以將模型post推理的結(jié)果寫入Azure Cosmos DB以便通過Spark Synapse對數(shù)據(jù)進行實時評分。

數(shù)據(jù)工程師,想要無需手動ETL過程即可對Azure Cosmos DB容器創(chuàng)建SQL或Spark表,以便使數(shù)據(jù)可供使用者訪問。

有關(guān)Azure Cosmos DB的Azure Synapse Analytics運行時支持的詳細信息,請參閱Azure Synapse Analytics for Cosmos DB支持。

何時使用Azure Synapse Link for Azure Cosmos DB?

建議在以下情況下使用Synapse Link:

如果你是Azure Cosmos DB客戶,并且想要對操作數(shù)據(jù)運行分析、BI和機器學習。在此類情況下,Synapse Link提供了更集成的分析體驗,同時不影響事務(wù)存儲的預(yù)配吞吐量。例如:

如果你現(xiàn)在直接使用單獨的連接器對Azure Cosmos DB操作數(shù)據(jù)運行分析或BI,或

如果你正在運行ETL過程以將操作數(shù)據(jù)提取到單獨的分析系統(tǒng)中。

在此類情況下,Synapse Link提供了更集成的分析體驗,同時不影響事務(wù)存儲的預(yù)配吞吐量。

如果需要傳統(tǒng)的數(shù)據(jù)倉庫要求(例如,高并發(fā)、工作負荷管理和跨多個數(shù)據(jù)源的聚合持久性),則不建議使用Synapse Link。有關(guān)詳細信息,請參閱可由Synapse Link for Azure Cosmos DB提供幫助的常見方案。

限制

適用于Azure Cosmos DB的Azure Synapse鏈接支持適用于MongoDB的SQL API和Azure Cosmos DB API。它不支持Gremlin API、Cassandra API和表API。

只能為新容器啟用分析存儲。若要對現(xiàn)有容器使用分析存儲,可以使用Azure Cosmos DB遷移工具將數(shù)據(jù)從現(xiàn)有容器遷移到新容器??梢栽谛碌暮同F(xiàn)有的Azure Cosmos DB帳戶上啟用Synapse Link。

對于啟用了分析存儲的容器,目前不支持自動備份和還原分析存儲中的數(shù)據(jù)。在數(shù)據(jù)庫帳戶上啟用Synapse Link后,Azure Cosmos DB會像往常一樣,繼續(xù)按計劃的備份間隔以自動方式僅對容器的事務(wù)性存儲中的數(shù)據(jù)執(zhí)行備份。需要特別注意的是,將啟用了分析存儲的容器還原到新帳戶時,將僅使用事務(wù)性存儲來還原容器,而不會啟用分析存儲。

當前無法訪問預(yù)配了Synapse SQL的Azure Cosmos DB分析存儲。

當前不支持Azure Cosmso DB分析存儲在Azure Synapse Analytics中使用托管專用終結(jié)點的網(wǎng)絡(luò)隔離。

定價

Azure Synapse Link的計費模型包括使用Azure Cosmos DB分析存儲和Synapse運行時所產(chǎn)生的成本。若要了解詳細信息,請參閱Azure Cosmos DB分析存儲定價和Azure Synapse Analytics定價文章。

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于Microsoft Azure,本站不擁有所有權(quán),不承擔相關(guān)法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多