Azure上CDW提供經(jīng)濟(jì)高效且可擴(kuò)展的分析

來(lái)源: 大數(shù)據(jù)雜貨鋪
作者:大數(shù)據(jù)雜貨鋪
時(shí)間:2020-10-14
17318
Cloudera數(shù)據(jù)倉(cāng)庫(kù)(CDW)服務(wù)是一種托管數(shù)據(jù)倉(cāng)庫(kù),可在容器化體系結(jié)構(gòu)上運(yùn)行Cloudera的強(qiáng)大引擎。它是新Cloudera數(shù)據(jù)平臺(tái)或CDP的一部分,該平臺(tái)已于今年年初在Microsoft Azure上啟用。CDW服務(wù)可讓您滿足SLA,在零摩擦的情況下使用新的用例并最大程度地降低成本。今天,我們很高興宣布CDW在Microsoft Azure上已全面上市。該服務(wù)可通過(guò)Azure市場(chǎng)作為CDP的一部分使用。

Cloudera數(shù)據(jù)倉(cāng)庫(kù)(CDW)服務(wù)是一種托管數(shù)據(jù)倉(cāng)庫(kù),可在容器化體系結(jié)構(gòu)上運(yùn)行Cloudera的強(qiáng)大引擎。它是新Cloudera數(shù)據(jù)平臺(tái)或CDP的一部分,該平臺(tái)已于今年年初在Microsoft Azure上啟用。CDW服務(wù)可讓您滿足SLA,在零摩擦的情況下使用新的用例并最大程度地降低成本。今天,我們很高興宣布CDW在Microsoft Azure上已全面上市。該服務(wù)可通過(guò)Azure市場(chǎng)作為CDP的一部分使用。

與我們的客戶討論數(shù)據(jù)倉(cāng)庫(kù)時(shí),經(jīng)常會(huì)出現(xiàn)三種情況。企業(yè)永遠(yuǎn)無(wú)法盡快獲得所需的東西。通常會(huì)錯(cuò)過(guò)SLA,尤其是隨著用戶數(shù)量和用例的增長(zhǎng)。而且,即使不是完全強(qiáng)制性的命令,也存在向公共云遷移的壓力。

640.png

盡管有許多因素導(dǎo)致了這些情況,但是對(duì)于如何處理它只有一個(gè)答案:CDW。這篇文章描述了我們的客戶所面對(duì)的代表示例,并解釋了CDW如何解決這些問(wèn)題。它還著眼于該解決方案中幾個(gè)Azure服務(wù)(例如Azure Kubernetes服務(wù)和ADLS Gen2)所起的關(guān)鍵作用。

我們將檢查一家制造用于飛機(jī)的設(shè)備的公司。像許多企業(yè)一樣,有大量的分析師在研究精選的數(shù)據(jù),業(yè)務(wù)線(LOB)經(jīng)理專(zhuān)注于卓越的運(yùn)營(yíng),而數(shù)據(jù)科學(xué)家則在新數(shù)據(jù)集中尋找競(jìng)爭(zhēng)優(yōu)勢(shì)。但是,與我們的許多客戶一樣,也存在挑戰(zhàn),如以下四個(gè)主角所示:

1.Ramesh的業(yè)務(wù)分析人員團(tuán)隊(duì)可生成運(yùn)行業(yè)務(wù)的報(bào)告。但是隨著團(tuán)隊(duì)的成長(zhǎng),倉(cāng)庫(kù)滿足SLA和保持預(yù)算的能力下降了。

a)CDW為Ramesh提供了經(jīng)濟(jì)高效、可擴(kuò)展的報(bào)告和儀表板,因此它們的SLA不會(huì)被錯(cuò)過(guò)。

2.Kelly是一位數(shù)據(jù)架構(gòu)師,需要運(yùn)行臨時(shí)探索工作負(fù)載以進(jìn)行活動(dòng)分析。但是,由于存在與SLA綁定的工作負(fù)載引起爭(zhēng)用的風(fēng)險(xiǎn),因此不允許她使用倉(cāng)庫(kù)。

a)CDW使Kelly可以處理倉(cāng)庫(kù)中的數(shù)據(jù),而不會(huì)影響其他工作負(fù)載。

3.數(shù)據(jù)科學(xué)家?jiàn)W利維亞(Olivia)無(wú)法在倉(cāng)庫(kù)中獲得探索新供應(yīng)鏈數(shù)據(jù)的能力。因此,錯(cuò)過(guò)了進(jìn)行優(yōu)化的機(jī)會(huì)。

a)CDW為Olivia提供了無(wú)限的計(jì)算資源,可以在幾分鐘之內(nèi)將對(duì)象存儲(chǔ)中的任何數(shù)據(jù)扔掉。

4.Mariana是一位運(yùn)營(yíng)經(jīng)理,需要實(shí)時(shí)查看大容量傳感器數(shù)據(jù)以及將其與客戶體驗(yàn)數(shù)據(jù)結(jié)合在一起的能力。當(dāng)前的倉(cāng)庫(kù)無(wú)法處理這種數(shù)量或多樣性,因此Mariana必須使用寶貴的預(yù)算來(lái)建造另一個(gè)筒倉(cāng)。

a)CDW為Mariana提供了一個(gè)單一平臺(tái),該平臺(tái)可以執(zhí)行傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)以及需要不同技術(shù)的新用例……同時(shí)保留每個(gè)數(shù)據(jù)集的一個(gè)副本并利用共享的元數(shù)據(jù)和安全性。

在下面的部分中,我們將進(jìn)一步解釋CDW和Azure如何提供這些功能。

能力1–高效、可伸縮的報(bào)表和儀表板數(shù)據(jù)管理

640 (1).png

Ramesh和他的業(yè)務(wù)分析團(tuán)隊(duì)全天不間斷地發(fā)布報(bào)告。該業(yè)務(wù)基于他的團(tuán)隊(duì)提供的洞察力,尤其是與客戶情緒有關(guān)的洞察力,鑒于最近的差旅支出下降,這一點(diǎn)至關(guān)重要。因此,他們不能錯(cuò)過(guò)SLA,否則企業(yè)會(huì)盲目發(fā)展。無(wú)論數(shù)據(jù)量和分析師人數(shù)在增長(zhǎng),即使預(yù)算在縮減,也必須交付報(bào)告。

每當(dāng)沒(méi)有查詢時(shí),CDW虛擬倉(cāng)庫(kù)(VW)中的計(jì)算資源將保持暫停狀態(tài),不會(huì)產(chǎn)生任何成本。Ramesh上班后的第一個(gè)查詢?cè)谠缟系竭_(dá)時(shí),大眾會(huì)自動(dòng)啟動(dòng)。如果由于Ramesh的許多同事都在早上晚些時(shí)候上線而導(dǎo)致查詢負(fù)載稍后增加到飽和點(diǎn),則VW將檢測(cè)到此情況并提供更多計(jì)算資源來(lái)處理負(fù)載,同時(shí)保持性能。這稱(chēng)為自動(dòng)縮放。一旦負(fù)載下降到較低的水平(他的同事們都在沒(méi)有他的情況下共進(jìn)午餐),那么這些額外的計(jì)算資源就被釋放了,因此不再產(chǎn)生成本。最后,在Ramesh最終離開(kāi)工作并且查詢?nèi)拷Y(jié)束的一天結(jié)束時(shí),大眾汽車(chē)自動(dòng)暫停自身,再次下降為免費(fèi)狀態(tài)。

CDW可以使用Azure Kubernetes服務(wù)(AKS)快速提供計(jì)算Pod,并在不再需要時(shí)釋放它們,從而提供此按需付費(fèi)的功能。這些Pod使用Standard_E16_v3計(jì)算實(shí)例大?。?6 vCPU,128 GiB RAM,400 GiB本地SSD)。AKS最終在后臺(tái)使用VM縮放集來(lái)啟用和控制自動(dòng)縮放。

一旦Ramesh的團(tuán)隊(duì)運(yùn)行了查詢,他們就可以通過(guò)服務(wù)中內(nèi)置的三個(gè)緩存級(jí)別在很大程度上滿足其SLA:

數(shù)據(jù)緩存–首次從ADLS讀取數(shù)據(jù)時(shí),會(huì)將其緩存在使用該數(shù)據(jù)的計(jì)算節(jié)點(diǎn)上。隨后需要相同數(shù)據(jù)的查詢從本地緩存(而不是ADLS)獲取數(shù)據(jù)。Hive LLAP和Impala VW均支持此緩存類(lèi)型。

結(jié)果集緩存–將結(jié)果發(fā)送回客戶端后,結(jié)果集也將緩存在HiveServer2節(jié)點(diǎn)上的存儲(chǔ)中。如果再次到達(dá)完全相同的查詢(這在儀表板和BI用例中很常見(jiàn)),則直接從HS2緩存中提供結(jié)果。當(dāng)前,只有Hive LLAP VW支持此緩存類(lèi)型。

物化視圖–您可以定義物化視圖(MV)的結(jié)構(gòu)和內(nèi)容,Hive將從基表中選擇數(shù)據(jù)填充其中。對(duì)于后續(xù)訪問(wèn)基表的查詢,如果Hive檢測(cè)到可以從MV中提供數(shù)據(jù),則它將透明地重寫(xiě)查詢以使用該查詢,從而避免了再次掃描基表,聯(lián)接數(shù)據(jù),對(duì)其進(jìn)行匯總的需求等等。目前僅Hive LLAP大眾汽車(chē)支持此功能。

通過(guò)這種級(jí)別的智能和性能優(yōu)化,Ramesh和團(tuán)隊(duì)可以隨著數(shù)據(jù)量和業(yè)務(wù)需求的增長(zhǎng)而增長(zhǎng),而僅需支付實(shí)際工作所需的資源。

能力2–臨時(shí)探索以補(bǔ)充SLA約束的工作負(fù)載

640 (2).png

首席營(yíng)銷(xiāo)官要求數(shù)據(jù)架構(gòu)師Kelly提供量化近期營(yíng)銷(xiāo)活動(dòng)影響的指標(biāo)。倉(cāng)庫(kù)具有所需的數(shù)據(jù),但也正在滿負(fù)荷運(yùn)行。凱利(Kelly)將需要使用多種查詢類(lèi)型來(lái)探索數(shù)據(jù),并且不確定需要多長(zhǎng)時(shí)間或她需要多少CPU和內(nèi)存。在這樣模糊的要求下,由于存在影響SLA約束的操作工作負(fù)載的風(fēng)險(xiǎn),IT不允許她在數(shù)據(jù)倉(cāng)庫(kù)上執(zhí)行此工作。她的查詢可能會(huì)耗盡CPU資源,并從緩存中逐出所有熱數(shù)據(jù)。因此,CMO沒(méi)有度量標(biāo)準(zhǔn)來(lái)幫助理解其營(yíng)銷(xiāo)投資的影響。

借助CDW,Kelly可以擁有自己的計(jì)算環(huán)境,該環(huán)境可以查詢倉(cāng)庫(kù)數(shù)據(jù),但與其他受SLA約束的工作負(fù)載完全隔離。CDW可以通過(guò)與存儲(chǔ)和計(jì)算層分開(kāi)管理數(shù)據(jù)上下文(表定義,授權(quán)策略,元數(shù)據(jù))來(lái)做到這一點(diǎn)。這樣,多個(gè)計(jì)算環(huán)境都可以共享同一數(shù)據(jù)上下文。Cloudera共享數(shù)據(jù)體驗(yàn)(SDX)是為此托管上下文提供的術(shù)語(yǔ)。

SDX的關(guān)鍵啟用功能是能夠?qū)⒃獢?shù)據(jù)和安全規(guī)則可靠地存儲(chǔ)在持久數(shù)據(jù)庫(kù)中。為此,我們使用Gen5 4 vCore,內(nèi)存優(yōu)化選項(xiàng)將Azure數(shù)據(jù)庫(kù)用于PostgreSQL。這種托管的Postgres服務(wù)易于集成,高度可用且管理起來(lái)很簡(jiǎn)單。使用此作為元數(shù)據(jù)和其他持久狀態(tài)的單一事實(shí)來(lái)源,CDW可以安全地并行運(yùn)行您的工作負(fù)載所需的多個(gè)計(jì)算環(huán)境。

當(dāng)在這種情況下需要計(jì)算資源時(shí),CDW提供的另一種方法是將您的工作負(fù)載從本地CDH或HDP群集擴(kuò)展到在公共云中運(yùn)行的CDP。在這種情況下,工作負(fù)載管理器工具用于分析您的內(nèi)部工作負(fù)載,確定適合突發(fā)的候選工作負(fù)載(在這種情況下,臨時(shí)探索查詢會(huì)干擾SLA綁定查詢),然后將數(shù)據(jù)和元數(shù)據(jù)復(fù)制到CDP?,F(xiàn)在可以在您的云環(huán)境中安全地運(yùn)行工作負(fù)載。如果這樣做,您可能希望使用Microsoft ExpressRoute來(lái)確保良好的性能和一致的數(shù)據(jù)移動(dòng)延遲。

功能3–快速配置以跟上業(yè)務(wù)速度

640 (3).png

數(shù)據(jù)科學(xué)家?jiàn)W利維亞(Olivia)偶爾需要使用尚未在倉(cāng)庫(kù)中的新數(shù)據(jù)文件來(lái)檢驗(yàn)供應(yīng)鏈優(yōu)化的假設(shè)。但是中央IT部門(mén)從來(lái)沒(méi)有計(jì)劃過(guò)這樣的突發(fā)性工作負(fù)載,也沒(méi)有資源去做一個(gè)新的ETL項(xiàng)目,以將這些新數(shù)據(jù)(其價(jià)值尚未得到驗(yàn)證)整合到倉(cāng)庫(kù)中。這導(dǎo)致錯(cuò)過(guò)了降低供應(yīng)鏈成本并降低其風(fēng)險(xiǎn)的機(jī)會(huì)。

如果使用CDW,Olivia將能夠簡(jiǎn)單地啟動(dòng)一個(gè)新的Hive LLAP VW,該過(guò)程只需幾分鐘,然后在數(shù)據(jù)文件上創(chuàng)建一個(gè)外部表定義,以便她可以開(kāi)始查詢它們。使用Hive,您可以本地查詢半結(jié)構(gòu)化文本文件和定界文件(例如CSV或TSV)。有標(biāo)準(zhǔn)的開(kāi)源庫(kù)可查詢JSON以及其他文件格式。而且,您始終可以為自定義格式定義自己的Serializer-Deserializer(SerDe)。即使使用這些基本文件格式,Hive仍將數(shù)據(jù)轉(zhuǎn)換為其列式內(nèi)存格式,以從緩存和IO效率優(yōu)化中受益。

快速提供對(duì)對(duì)象存儲(chǔ)中任意數(shù)據(jù)的查詢功能的這種功能可提供極大的靈活性和靈活性。您可以快速探索新數(shù)據(jù)和使用新用例,以跟上業(yè)務(wù)發(fā)展的速度。但是,由于可擴(kuò)展的高性能ADLS Gen2服務(wù),這才有可能。在Hadoop的ABFS連接器提供了這個(gè)關(guān)鍵的結(jié)合點(diǎn),橋接已存儲(chǔ)在ADLS與第二代在Cloudera公司提供分析功能的生態(tài)系統(tǒng)中的企業(yè)數(shù)據(jù)。

功能4–利用共享資源的新用例的多模式分析

640 (4).png

制造LOB運(yùn)營(yíng)經(jīng)理Mariana受其首席運(yùn)營(yíng)官的委托,通過(guò)避免計(jì)劃外的設(shè)備停機(jī)時(shí)間來(lái)提高產(chǎn)量。她估計(jì),這將需要每秒存儲(chǔ)100萬(wàn)個(gè)傳感器讀數(shù),保留15個(gè)月的數(shù)據(jù)以適應(yīng)歷史趨勢(shì)分析,對(duì)數(shù)據(jù)運(yùn)行任意SQL的能力以及訪問(wèn)原始數(shù)據(jù)和聚合的需求。簡(jiǎn)而言之,她需要一個(gè)高度可擴(kuò)展的實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù),該倉(cāng)庫(kù)可提供時(shí)間序列功能而又不會(huì)造成資金損失。

當(dāng)前的數(shù)據(jù)倉(cāng)庫(kù)團(tuán)隊(duì)無(wú)法接近這些性能要求,并且他們的團(tuán)隊(duì)之一使用的傳統(tǒng)時(shí)間序列數(shù)據(jù)庫(kù)無(wú)法處理如此長(zhǎng)的歷史記錄或執(zhí)行任意SQL。借助CDP平臺(tái),Mariana可以在一小時(shí)內(nèi)站起來(lái)支撐該應(yīng)用程序的基礎(chǔ)架構(gòu),在這種情況下,將使用具有標(biāo)準(zhǔn)本地冗余SSD存儲(chǔ)的Azure Compute VM。Cloudera的時(shí)間序列產(chǎn)品主要依賴于Apache Kudu存儲(chǔ)引擎和Apache Impala進(jìn)行SQL查詢??梢允褂肁pache NiFi從Azure Event Hub或Kafka或許多其他受支持的源之一中提取數(shù)據(jù)。強(qiáng)大的Cloudera引擎與強(qiáng)大的Azure基礎(chǔ)架構(gòu)的結(jié)合意味著可以滿足Mariana的雄心勃勃的要求。

她為自己的首席運(yùn)營(yíng)官做得非常出色,以至于首席執(zhí)行官注意到了這一點(diǎn),并要求她現(xiàn)在通過(guò)制造更可靠的飛機(jī)發(fā)動(dòng)機(jī)來(lái)提高客戶(即飛機(jī)乘客)的滿意度。但是倉(cāng)庫(kù)無(wú)法實(shí)時(shí)了解工廠車(chē)間中運(yùn)行的機(jī)器,因此沒(méi)有簡(jiǎn)單的方法可以將數(shù)據(jù)與客戶體驗(yàn)數(shù)據(jù)集成在一起并進(jìn)行關(guān)聯(lián)。因此,她不知道在工廠要進(jìn)行哪些調(diào)整以提高質(zhì)量。

借助Cloudera,Mariana可以運(yùn)行將時(shí)間序列應(yīng)用程序中的數(shù)據(jù)與倉(cāng)庫(kù)中的其他數(shù)據(jù)結(jié)合起來(lái)的查詢,以得出制造過(guò)程與客戶體驗(yàn)之間的關(guān)聯(lián)(如航班延誤所示)。如上所述,這是通過(guò)SDX啟用的,但是在這種情況下,由于沒(méi)有允許Mariana查看客戶數(shù)據(jù)中的個(gè)人身份信息(PII),因此存在更高的安全級(jí)別。因?yàn)镃DP與Azure Active Directory集成在一起以獲取用戶的身份和組成員身份,所以它可以使用Apache Ranger強(qiáng)制實(shí)施復(fù)雜的基于角色或基于屬性的訪問(wèn)控制,以在Mariana訪問(wèn)數(shù)據(jù)時(shí)動(dòng)態(tài)屏蔽所有PII數(shù)據(jù)。她現(xiàn)在可以安全地完成自己的工作,并通過(guò)盡自己的職責(zé)來(lái)提高客戶滿意度而使CEO高興。

使用CDW for Azure改變您的數(shù)據(jù)倉(cāng)庫(kù)體驗(yàn)

借助在Azure上運(yùn)行的Cloudera Data Warehouse,您可以經(jīng)濟(jì)高效地?cái)U(kuò)展已整理數(shù)據(jù)的報(bào)告和儀表板,而無(wú)需等待傳統(tǒng)上較長(zhǎng)的配置周期。您可以在與SLA綁定的工作負(fù)載之上啟用即席探索,而不會(huì)引起資源爭(zhēng)用而丟失那些協(xié)議的風(fēng)險(xiǎn)。您可以根據(jù)需要快速配置資源,因此您總是對(duì)任何需要進(jìn)行任何形式分析的業(yè)務(wù)請(qǐng)求都說(shuō)“是”,并且可以利用共享資源充分利用針對(duì)新用例的更廣泛的多模式分析范圍。

立即登錄,閱讀全文
版權(quán)說(shuō)明:
本文內(nèi)容來(lái)自于大數(shù)據(jù)雜貨鋪,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
Azure Arc為企業(yè)構(gòu)建安全的云基礎(chǔ)
Azure Arc為企業(yè)構(gòu)建安全的云基礎(chǔ)
隨著人工智能技術(shù)持續(xù)重塑企業(yè)運(yùn)營(yíng)方式,企業(yè)需要能夠處理海量數(shù)據(jù)的系統(tǒng),以支持實(shí)時(shí)洞察,同時(shí)幫助他們應(yīng)對(duì)跨IT和OT環(huán)境(包括云端、邊緣和本地)中運(yùn)營(yíng)、應(yīng)用、數(shù)據(jù)和基礎(chǔ)設(shè)施的協(xié)作難題。
Azure
微軟云
云服務(wù)
2024-12-172024-12-17
釋放.NET 9和Azure的AI技術(shù)與云計(jì)算潛力:更快、更智能、面向未來(lái)
釋放.NET 9和Azure的AI技術(shù)與云計(jì)算潛力:更快、更智能、面向未來(lái)
.NET 9現(xiàn)已正式發(fā)布,它為.NET平臺(tái)的發(fā)展掀開(kāi)了嶄新的一頁(yè),突破了性能、云原生開(kāi)發(fā)和AI技術(shù)集成的邊界。
Azure
微軟云
云服務(wù)
2024-12-162024-12-16
Azure網(wǎng)絡(luò)管理現(xiàn)已具備智能Microsoft Copilot副駕駛能力
Azure網(wǎng)絡(luò)管理現(xiàn)已具備智能Microsoft Copilot副駕駛能力
智能Microsoft Copilot副駕駛for Azure網(wǎng)絡(luò)服務(wù)現(xiàn)已推出公共預(yù)覽版。
Azure
微軟云
云服務(wù)
2024-12-102024-12-10
Microsoft Fabric功能更新,借助AI驅(qū)動(dòng)的數(shù)據(jù)平臺(tái)加速應(yīng)用創(chuàng)新
Microsoft Fabric功能更新,借助AI驅(qū)動(dòng)的數(shù)據(jù)平臺(tái)加速應(yīng)用創(chuàng)新
一年前,我們正式推出了一款端到端數(shù)據(jù)平臺(tái),旨在幫助組織推動(dòng)人工智能轉(zhuǎn)型,并重新定義數(shù)據(jù)的連接、管理和分析方式。
Azure
微軟云
云服務(wù)
2024-12-092024-12-09
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家