通過(guò)AWS Analytics充分發(fā)掘數(shù)據(jù)的力量

來(lái)源: AWS
作者:Rahul Pathak
時(shí)間:2021-03-03
17093
為了從數(shù)據(jù)湖及專門構(gòu)建的存儲(chǔ)中獲取最大收益,客戶要求能夠在不同系統(tǒng)之間輕松移動(dòng)數(shù)據(jù)。例如,客戶希望將來(lái)自Web應(yīng)用程序的點(diǎn)擊流數(shù)據(jù)直接收集在數(shù)據(jù)湖內(nèi),并將其中部分?jǐn)?shù)據(jù)移至數(shù)據(jù)倉(cāng)庫(kù)以生成每日?qǐng)?bào)告。我們將這種用例,總結(jié)為由內(nèi)而外的數(shù)據(jù)移動(dòng)操作。

MzQzZWFlMy5qcGVn.jpg

2020年的種種變化,讓我們?cè)俅我庾R(shí)到敏捷性的重要意義。隨著新冠疫情的全面爆發(fā),我們接觸到的每家客戶都著手推進(jìn)自己的應(yīng)對(duì)之策。部分公司決定努力提高運(yùn)營(yíng)效率,有些企業(yè)甚至在疫情期間獲得了可觀的業(yè)務(wù)增長(zhǎng)??傮w而言,我們發(fā)現(xiàn)組織在面對(duì)嚴(yán)峻變化時(shí),普遍希望借助數(shù)據(jù)的力量快速做出良好決策。要獲得這樣的敏捷性優(yōu)勢(shì),他們需要將TB、PB甚至是EB級(jí)別的數(shù)據(jù)集成起來(lái),借此建立起覆蓋客戶及業(yè)務(wù)運(yùn)營(yíng)體系的完整視圖。傳統(tǒng)的本地?cái)?shù)據(jù)分析解決方案顯然無(wú)法支撐起如此龐大的處理規(guī)模,為了突破擴(kuò)展性與資源成本的桎梏,各組織開始更積極地推動(dòng)云遷移,由此邁出數(shù)據(jù)與分析基礎(chǔ)設(shè)施現(xiàn)代化的前進(jìn)腳步。

真實(shí)世界中的客戶數(shù)據(jù)

為了分析海量數(shù)據(jù),許多企業(yè)開始將所有數(shù)據(jù)從各個(gè)倉(cāng)庫(kù)轉(zhuǎn)移至統(tǒng)一位置(通常稱為數(shù)據(jù)湖),在此執(zhí)行數(shù)據(jù)分析與機(jī)器學(xué)習(xí)(ML)。他們也會(huì)將數(shù)據(jù)存儲(chǔ)在專門構(gòu)建的存儲(chǔ)方案(比如數(shù)據(jù)倉(cāng)庫(kù)等)之內(nèi),由此為特定應(yīng)用場(chǎng)景提供必要的性能、規(guī)模與成本優(yōu)勢(shì)。此類數(shù)據(jù)存儲(chǔ)方案涵蓋數(shù)據(jù)倉(cāng)庫(kù)(適合針對(duì)結(jié)構(gòu)化數(shù)據(jù)通過(guò)復(fù)雜查詢快速獲取結(jié)果)以及Elasticsearch(適合快速搜索并分析日志數(shù)據(jù),借此監(jiān)控生產(chǎn)系統(tǒng)的運(yùn)行狀態(tài))等多種具體技術(shù)。很明顯,一成不變的單一數(shù)據(jù)分析方法將不可避免地對(duì)功能有所取舍,靈活多變的實(shí)現(xiàn)途徑才是通往業(yè)務(wù)敏捷的理想道路。

為了從數(shù)據(jù)湖及專門構(gòu)建的存儲(chǔ)中獲取最大收益,客戶要求能夠在不同系統(tǒng)之間輕松移動(dòng)數(shù)據(jù)。例如,客戶希望將來(lái)自Web應(yīng)用程序的點(diǎn)擊流數(shù)據(jù)直接收集在數(shù)據(jù)湖內(nèi),并將其中部分?jǐn)?shù)據(jù)移至數(shù)據(jù)倉(cāng)庫(kù)以生成每日?qǐng)?bào)告。我們將這種用例,總結(jié)為由內(nèi)而外的數(shù)據(jù)移動(dòng)操作。

同樣的,客戶有時(shí)候需要由外而內(nèi)進(jìn)行數(shù)據(jù)移動(dòng)。例如,他們希望將特定區(qū)域內(nèi)的產(chǎn)品銷售查詢結(jié)果從數(shù)據(jù)倉(cāng)庫(kù)復(fù)制到數(shù)據(jù)湖內(nèi),進(jìn)而使用機(jī)器學(xué)習(xí)對(duì)大規(guī)模數(shù)據(jù)集運(yùn)行產(chǎn)品推薦算法。

最后,客戶還可能要求將數(shù)據(jù)在不同的專用數(shù)據(jù)存儲(chǔ)方案之間往來(lái)移動(dòng),即周邊移動(dòng)。例如,他們可以將存儲(chǔ)在數(shù)據(jù)庫(kù)內(nèi)的產(chǎn)品目錄數(shù)據(jù)復(fù)制到搜索服務(wù)當(dāng)中,將原本極耗資源的數(shù)據(jù)庫(kù)搜索查詢轉(zhuǎn)化為輕松易行的產(chǎn)品目錄瀏覽操作。

隨著數(shù)據(jù)湖與專門構(gòu)建的存儲(chǔ)方案中數(shù)據(jù)量的不斷增長(zhǎng),數(shù)據(jù)的往來(lái)移動(dòng)操作變得越來(lái)越困難。我們將此稱為“數(shù)據(jù)重力”。

為了快速靈活地做出決策,客戶必須順暢應(yīng)用中央數(shù)據(jù)湖與圍繞該湖建立的專用數(shù)據(jù)閉環(huán)。此外,他們還需要以安全且受控的方式在不同數(shù)據(jù)存儲(chǔ)方案之間快速移動(dòng)數(shù)據(jù),借此確定數(shù)據(jù)的重要程度。

為了滿足這些需求,客戶需要一套能夠支持以下目標(biāo)的數(shù)據(jù)架構(gòu):

·快速構(gòu)建起可擴(kuò)展的數(shù)據(jù)湖。

·豐富而且功能強(qiáng)大的專門構(gòu)建的數(shù)據(jù)服務(wù)集合,這些數(shù)據(jù)服務(wù)可以為交互式儀表板與日志分析等提供必要的性能支持。

·在數(shù)據(jù)湖及各專門構(gòu)建的數(shù)據(jù)服務(wù)之間實(shí)現(xiàn)數(shù)據(jù)的無(wú)縫化移動(dòng)。

·通過(guò)統(tǒng)一方式加以保護(hù)、監(jiān)控與管理,保證數(shù)據(jù)訪問(wèn)活動(dòng)的合規(guī)性。

以低成本方式擴(kuò)展系統(tǒng),保證不對(duì)性能產(chǎn)生負(fù)面影響。

我們將這種現(xiàn)代分析方法,稱為“Lake House架構(gòu)”。

AWS上的Lake House架構(gòu)

Lake House架構(gòu)的基本思路,認(rèn)為任何一種號(hào)稱“萬(wàn)能”的分析方法終會(huì)帶來(lái)與預(yù)期相沖突的妥協(xié)。換言之,我們不是簡(jiǎn)單粗暴地將數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)集成起來(lái),而是把數(shù)據(jù)湖,數(shù)據(jù)倉(cāng)庫(kù),以及其他一些專門構(gòu)建(purpose-built)的數(shù)據(jù)存儲(chǔ)方案集成起來(lái),賦予統(tǒng)一管理與輕松靈活的數(shù)據(jù)移動(dòng)。下圖所示,為AWS上的Lake House架構(gòu)。

下面來(lái)看AWS上的Lake House架構(gòu),以及我們?cè)赗e:Invent 2020大會(huì)上公布的一系列新功能,將如何幫助我們的客戶滿足以上各項(xiàng)要求。

可擴(kuò)展數(shù)據(jù)湖

Amazon Simple Storage Service(Amazon S3)之所以成為構(gòu)建數(shù)據(jù)湖的最佳場(chǎng)所,憑借的正是其無(wú)與倫比的持久性、可用性與可擴(kuò)展性,出色的安全性、合規(guī)性與審計(jì)功能,以最低成本提供最強(qiáng)性能的自身定位,豐富的數(shù)據(jù)導(dǎo)流方法,以及廣泛的合作伙伴集成范圍。

但是,數(shù)據(jù)湖的設(shè)置與管理往往涉及諸多手動(dòng)且極為耗時(shí)的操作,例如從不同來(lái)源處加載數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)湖、設(shè)置分區(qū)、啟用加密并管理密鑰、將數(shù)據(jù)重整為列格式,以及對(duì)訪問(wèn)進(jìn)行授權(quán)與審計(jì)等等。為了幫助簡(jiǎn)化這個(gè)過(guò)程,我們開發(fā)出AWS Lake Formation。Lake Formation可以幫助我們的客戶將云端安全數(shù)據(jù)湖的構(gòu)建周期由幾個(gè)月縮短至數(shù)天。Lake Formation能夠從數(shù)據(jù)庫(kù)及對(duì)象存儲(chǔ)中收集并分類數(shù)據(jù),將數(shù)據(jù)移動(dòng)到Amazon S3數(shù)據(jù)湖內(nèi),使用機(jī)器學(xué)習(xí)算法清理并分類數(shù)據(jù),同時(shí)保護(hù)指向敏感數(shù)據(jù)的訪問(wèn)活動(dòng)。

除此之外,我們還在AWS Lake Formation中發(fā)布了三項(xiàng)新的功能預(yù)覽版:ACID事務(wù)、用于并發(fā)更新與查詢結(jié)果一致性的受監(jiān)管表(governed table)、以及用于實(shí)現(xiàn)查詢加速的自動(dòng)文件壓縮功能。這些預(yù)覽版引入了新的API,可通過(guò)受監(jiān)管表這種新的數(shù)據(jù)湖表類型支持原子性、一致性、隔離性與持久性(ACID)事務(wù)。受監(jiān)管表允許多位用戶同時(shí)跨表插入、刪除并修改各行,同時(shí)允許其他用戶在同一數(shù)據(jù)集上并發(fā)運(yùn)行分析查詢與機(jī)器學(xué)習(xí)模型。此外,自動(dòng)文件壓縮則負(fù)責(zé)將小型文件合并為大型文件,借此將查詢速度提高達(dá)7倍。

專門構(gòu)建的(Purpose-built)分析服務(wù)

AWS提供最具深度與廣度的專門構(gòu)建的分析服務(wù)組合,具體涵蓋Amazon Athena,Amazon EMR,Amazon Elasticsearch Service,Amazon Kinesis以及Amazon Redshift。這些服務(wù)全部采用行業(yè)領(lǐng)先的設(shè)計(jì)與構(gòu)建方法,可保證客戶在使用過(guò)程中不必在性能、規(guī)模或成本之間做出任何妥協(xié)。例如,Amazon Redshift的性能價(jià)格比可達(dá)任何其他云數(shù)據(jù)倉(cāng)庫(kù)的3倍,而EMR上Apache Spark的運(yùn)行速度則達(dá)到標(biāo)準(zhǔn)Apache Spark 3.0的1.7倍,因此您可以在PB級(jí)別的超大規(guī)模數(shù)據(jù)分析中將成本控制在傳統(tǒng)本地解決方案的一半以下。

我們一直在努力創(chuàng)新,通過(guò)專門構(gòu)建的服務(wù)中的各項(xiàng)新功能滿足客戶需求。例如,為了幫助大家進(jìn)一步節(jié)約成本并提升部署靈活性,我們宣布Amazon EMR on Amazon Elastic Kubernetes Service(EKS)正式迎來(lái)通用版本。其在Amazon EKS上提供完全托管的全新Amazon EMR部署選項(xiàng)。在此之前,客戶只能選擇在EC2上運(yùn)行托管Amazon EMR,或者在Amazon EKS上自行管理Apache Spark。如今,您可以將分析工作負(fù)載與微服務(wù)、乃至其他基于Kubernetes的應(yīng)用整合在同一套Amazon EKS集群之上,借此提高資源利用率、簡(jiǎn)化基礎(chǔ)設(shè)施管理流程并通過(guò)統(tǒng)一的工具組合加以監(jiān)控。

為了進(jìn)一步增強(qiáng)數(shù)據(jù)倉(cāng)庫(kù)性能,我們還公布了Automatic Table Optimizations(ATO)for Amazon Redshift.的通用版本。ATO通過(guò)機(jī)器學(xué)習(xí)技術(shù)自動(dòng)執(zhí)行優(yōu)化任務(wù)(例如設(shè)置分發(fā)鍵與排序鍵),借此簡(jiǎn)化Amazon Redshift數(shù)據(jù)倉(cāng)庫(kù)的性能調(diào)優(yōu)過(guò)程,在消除手動(dòng)操作的同時(shí)提供最佳性能表現(xiàn)。

我們還公布了Amazon QuickSight Q的預(yù)覽版本,幫助業(yè)務(wù)用戶輕松便捷地從數(shù)據(jù)中提取洞見。QuickSight Q使用機(jī)器學(xué)習(xí)生成一套數(shù)據(jù)模型,此模型能夠自動(dòng)理解業(yè)務(wù)數(shù)據(jù)之間的含義與關(guān)系。在它的幫助下,用戶能夠以人類自然語(yǔ)言直接詢問(wèn)關(guān)于業(yè)務(wù)數(shù)據(jù)的即席問(wèn)題,并在幾秒鐘內(nèi)獲取準(zhǔn)確答案。以此為基礎(chǔ),業(yè)務(wù)用戶能夠即時(shí)獲取問(wèn)題答案,而不必等待由精益人員組成的商務(wù)智能(BI)團(tuán)隊(duì)進(jìn)行繁瑣緩慢的建模工作。

無(wú)縫數(shù)據(jù)移動(dòng)

由于數(shù)據(jù)存儲(chǔ)在多個(gè)不同系統(tǒng)中,客戶自然需要輕松在一切服務(wù)及數(shù)據(jù)存儲(chǔ)方案之間(包括由內(nèi)而外、由外而內(nèi)以及周邊移動(dòng))進(jìn)行數(shù)據(jù)遷移。沒有哪家分析服務(wù)商能夠像AWS這樣將數(shù)據(jù)大規(guī)模遷移至最需要的位置——AWS Glue是一項(xiàng)無(wú)服務(wù)器數(shù)據(jù)集成服務(wù),可幫助您輕松準(zhǔn)備數(shù)據(jù)以進(jìn)行分析、機(jī)器學(xué)習(xí)與應(yīng)用程序開發(fā)。AWS Glue提供數(shù)據(jù)集成所需要的全部功能,可以在幾分鐘(而非以往的幾個(gè)月)內(nèi)獲取洞見結(jié)論。Amazon Redshift與Athena還支持聯(lián)合查詢,可以跨多種存儲(chǔ)方案在運(yùn)營(yíng)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)以及數(shù)據(jù)湖間對(duì)數(shù)據(jù)執(zhí)行查詢,無(wú)需任何數(shù)據(jù)移動(dòng)即可提供跨數(shù)據(jù)湖洞見,消除了設(shè)置并維護(hù)復(fù)雜的提取、轉(zhuǎn)換與加載(ETL)管道的需求。

為了進(jìn)一步降低跨多種數(shù)據(jù)存儲(chǔ)方案的數(shù)據(jù)合并與復(fù)制門檻,上周我們還公布了AWS Glue Elastic Views的預(yù)覽版本。AWS Glue Elastic Views使開發(fā)人員可以使用熟悉的SQL在多種數(shù)據(jù)庫(kù)及數(shù)據(jù)存儲(chǔ)方案內(nèi)創(chuàng)建物化視圖,借此將跨數(shù)據(jù)存儲(chǔ)方案進(jìn)行數(shù)據(jù)合并與復(fù)制的周期從幾個(gè)月縮短至幾分鐘。AWS Glue Elastic Views還能夠處理從源數(shù)據(jù)存儲(chǔ)到目標(biāo)數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)合并與復(fù)制操作,持續(xù)監(jiān)控源數(shù)據(jù)存儲(chǔ)內(nèi)的變更,并自動(dòng)更新物化視圖以確保用戶始終能夠訪問(wèn)到最新數(shù)據(jù)。

我們還公布了Amazon Redshift數(shù)據(jù)共享功能的預(yù)覽版本。數(shù)據(jù)共享提供一種安全、便捷的方法,能夠跨組織內(nèi)部及外部的多個(gè)Amazon Redshift集群共享實(shí)時(shí)數(shù)據(jù),徹底消除數(shù)據(jù)復(fù)制或移動(dòng)帶來(lái)的復(fù)雜性因素。客戶可以通過(guò)數(shù)據(jù)共享功能沿用單計(jì)算集群內(nèi)的數(shù)據(jù)分析方法,借此滿足各項(xiàng)工作負(fù)載的性能要求并跟蹤每個(gè)業(yè)務(wù)小組的使用情況。例如,客戶可以建立一套中央ETL集群,并與多個(gè)商務(wù)智能集群共享數(shù)據(jù)以建立工作負(fù)載隔離與成本獨(dú)立計(jì)算的機(jī)制。

統(tǒng)一治理

現(xiàn)代分析架構(gòu)中的一大核心,在于對(duì)數(shù)據(jù)訪問(wèn)活動(dòng)進(jìn)行授權(quán)、管理及審計(jì)的能力。但這種能力的實(shí)現(xiàn)往往非常困難,因?yàn)榭缃M織內(nèi)各類數(shù)據(jù)存儲(chǔ)方案進(jìn)行安全管理、訪問(wèn)控制與審計(jì)跟蹤往往復(fù)雜且耗時(shí)。另外,這類方法也極易出錯(cuò),因?yàn)樗笪覀冊(cè)谌看鎯?chǔ)系統(tǒng)中手動(dòng)維護(hù)訪問(wèn)控制列表與審計(jì)策略,而不同的存儲(chǔ)系統(tǒng)往往又有著不同的安全性、數(shù)據(jù)訪問(wèn)與審計(jì)要求。

憑借集中訪問(wèn)控制與策略,輔以列與行層級(jí)的過(guò)濾等功能,AWS為客戶帶來(lái)細(xì)粒度訪問(wèn)控制與治理選項(xiàng),能夠立足單一控制點(diǎn)對(duì)跨數(shù)據(jù)湖及專用數(shù)據(jù)存儲(chǔ)系統(tǒng)的訪問(wèn)行為進(jìn)行全面管理。

今天,我們還公布了AWS Lake Formation行級(jí)安全功能的預(yù)覽版本,希望降低人員及應(yīng)用程序在共享數(shù)據(jù)時(shí)的安全保障難度。行級(jí)安全功能允許用戶在行層級(jí)上過(guò)濾并設(shè)置數(shù)據(jù)訪問(wèn)策略。例如,您現(xiàn)在可以設(shè)置一項(xiàng)策略,確保區(qū)域銷售經(jīng)理只能訪問(wèn)其所在區(qū)域內(nèi)的銷售數(shù)據(jù)。這一層級(jí)的過(guò)濾功能,意味著我們不必為不同的用戶組維護(hù)不同的數(shù)據(jù)湖表副本,極大節(jié)約了運(yùn)營(yíng)開支并消除了不必要的存儲(chǔ)成本。

性能與成本效益

在AWS,我們致力于在所有分析服務(wù)中以最低成本提供最佳性能,并通過(guò)創(chuàng)新不斷提高服務(wù)性價(jià)比。除了Amazon Redshift與Amazon EMR等行業(yè)領(lǐng)先的服務(wù)之外,Amazon S3還具備智能分層選項(xiàng),可幫助客戶將數(shù)據(jù)湖內(nèi)的數(shù)據(jù)存儲(chǔ)成本降低達(dá)40%。此外,Amazon EC2則提供多達(dá)350種實(shí)例類型,最高400 Gbps以太網(wǎng)連接,以及在按需、預(yù)留及競(jìng)價(jià)實(shí)例之間靈活選擇并切換的能力。2020年10月,我們宣布Amazon EMR正式支持搭載AWS Graviton 2處理器的Amazon EC2 M6g實(shí)例,其在將成本降低達(dá)35%的同時(shí),將性能提升達(dá)15%。我們的客戶也可以使用AWS Savings Plans中的靈活定價(jià)模型,借此將AWS計(jì)算資源成本削減達(dá)72%。

為了給新的數(shù)據(jù)處理規(guī)模奠定堅(jiān)實(shí)基礎(chǔ),我們上周還發(fā)布了面向全體客戶的AQUA(Advanced Query Accelerator)for Amazon Redshift預(yù)覽版本,并計(jì)劃在2021年1月全面上線。AQUA是一種新的分布式硬件加速型緩存,能夠?qū)⒂?jì)算與存儲(chǔ)層相融合,借此實(shí)現(xiàn)10倍于其他云數(shù)據(jù)倉(cāng)庫(kù)的查詢性能。AQUA可在Amazon Redshift RA3實(shí)例上免費(fèi)使用,客戶無(wú)需任何代碼變更即可直接享受AQUA帶來(lái)的性能改進(jìn)。

了解更多并立即體驗(yàn)

無(wú)論客戶希望以怎樣的方式使用數(shù)據(jù),AWS Analytics都可提供相應(yīng)的解決方案。我們提供最具廣度及深度的專用分析服務(wù)組合,幫助您快速構(gòu)建起Lake House架構(gòu)。我們的產(chǎn)品組合包含可擴(kuò)展性極高的數(shù)據(jù)湖、專用分析服務(wù)、無(wú)縫數(shù)據(jù)移動(dòng)與統(tǒng)一治理機(jī)制,而且全部以成本極低、性能極強(qiáng)的形式向您交付。

感興趣的朋友請(qǐng)參閱AWS re:Invent 2020大會(huì)上AWS re:Invent新增功能中的Analytics公告,并通過(guò)以下鏈接申請(qǐng)使用各項(xiàng)分析服務(wù)的預(yù)覽版本。此外,您也可以參考AWS re:Invent 2020大會(huì)上的40多項(xiàng)分組討論以深入了解特定議題。您可以訪問(wèn)研討目錄并選擇Analytics列表以回顧過(guò)往會(huì)議,并將后續(xù)即將召開的新議程添加至日歷當(dāng)中。

最后,我們推薦您體驗(yàn)AWS數(shù)據(jù)實(shí)驗(yàn)室。AWS數(shù)據(jù)實(shí)驗(yàn)室旨在幫助客戶使用AWS技術(shù)資源快速參與并加速各類數(shù)據(jù)與分析現(xiàn)代化項(xiàng)目。

立即登錄,閱讀全文
版權(quán)說(shuō)明:
本文內(nèi)容來(lái)自于AWS,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家