許多企業(yè)都在采用開源的大數(shù)據(jù)分析框架在本地或者云上自行運(yùn)維和管理,然而他們也面臨著運(yùn)營效率和成本問題。通過遷移到Amazon Web Services(AWS)上完全管理的服務(wù),企業(yè)可以節(jié)省時間、成本并提高生產(chǎn)率,將更多的時間與精力投入到創(chuàng)新和構(gòu)建新的應(yīng)用程序當(dāng)中。
接下來就讓我們一起了解一下如何遷移到AWS托管的大數(shù)據(jù)服務(wù)吧!
案例應(yīng)用
Verizon Media Group如何從本地Apache Hadoop與Spark遷移至Amazon EMR
Verizon Media Group(VMG)
Verizon Media在本質(zhì)上屬于一家在線廣告企業(yè)。目前,大多數(shù)在線廣告主要通過展示廣告(亦稱「橫幅廣告」或「視頻廣告」)形式實現(xiàn)。無論具體采取哪種方式,所有互聯(lián)網(wǎng)廣告都需要發(fā)送各種信標(biāo)以實現(xiàn)服務(wù)器跟蹤。這些服務(wù)器主要為具備高度可擴(kuò)展性的Web服務(wù)器部署,負(fù)責(zé)將接收到的信標(biāo)記錄至一個或者多個事件接收器當(dāng)中。
Amazon EMR是一套托管集群平臺,能夠簡化各類大數(shù)據(jù)框架(例如Apache Hadoop與Apache Spark)的運(yùn)行流程。
Verizon Media Group(VMG)面臨的一大主要問題,就是無法在理想的時間之內(nèi)完成計算容量擴(kuò)展——硬件采購?fù)ǔP枰獛讉€月才能落實到位。這就意味著無法讓硬件的擴(kuò)展與升級與工作負(fù)載變化匹配起來,這不僅造成了巨大的資金浪費(fèi),同時也給冗余管理軟件的升級流程帶來大量停機(jī)時間,進(jìn)而極大提升運(yùn)營風(fēng)險。
VMG通過使用Apache Hadoop以及Apache Spark等技術(shù)方案運(yùn)行數(shù)據(jù)處理管道。VGM之前曾經(jīng)使用過Cloudera Manager進(jìn)行集群管理,但其發(fā)布周期過慢,跟不上技術(shù)發(fā)展與業(yè)務(wù)需求的變化。結(jié)果就是,VGM只能使用較為陳舊的開源版本,導(dǎo)致無法充分使用Apache項目上的最新bug修復(fù)與性能改進(jìn)成果。出于以上原因,再加上VGM對AWS的現(xiàn)有投資,最終他們決定嘗試將分布式計算管道遷移至Amazon EMR當(dāng)中。
完全托管、高度可用且安全的
Apache Kafka服務(wù)
Amazon Managed Streaming for Apache Kafka
(Amazon MSK)迎來通用版本
Apache Kafka(Kafka)是一套開源平臺,能夠幫助客戶捕捉流式數(shù)據(jù),例如單擊流事件、事務(wù)、物聯(lián)網(wǎng)事件、應(yīng)用程序與機(jī)器日志等,且能夠執(zhí)行實時分析、運(yùn)行連續(xù)轉(zhuǎn)換、并將數(shù)據(jù)實時分發(fā)至各數(shù)據(jù)湖與數(shù)據(jù)庫當(dāng)中。
Amazon MSK是完全托管服務(wù),可讓您輕松構(gòu)建并運(yùn)行使用Apache Kafka的應(yīng)用程序來處理流數(shù)據(jù)。
Kafka本身已經(jīng)成為一套流行的企業(yè)級數(shù)據(jù)流與消息傳遞框架,但其在生產(chǎn)環(huán)境中的設(shè)置、擴(kuò)展與管理仍然較為困難。Amazon MSK能夠幫助我們執(zhí)行這些管理任務(wù),并結(jié)合高可用性與安全性監(jiān)管要求通過最佳實踐將Kafka輕松與Apache ZooKeeper配合起來,共同進(jìn)行置備與配置。
用例分析
通往托管之路:Amazon Elasticsearch Service
Amazon Elasticsearch Service(Amazon ES)是一項完全托管的服務(wù),方便您大規(guī)模經(jīng)濟(jì)高效地部署、保護(hù)和運(yùn)行Elasticsearch。
技術(shù)團(tuán)隊的最大意義,在于專注于完成真正重要的創(chuàng)新工作,打造出能夠為企業(yè)帶來差異化競爭優(yōu)勢的產(chǎn)品及服務(wù)。在這方面,Amazon ES無疑是一款必不可少的工具,能夠為您的搜索與分析基礎(chǔ)設(shè)施帶來強(qiáng)大的運(yùn)營穩(wěn)定性、安全性與性能支持。面對Amazon ES帶來的以下收益,大家還有什么理由不踏上遷移之旅呢?
1、支持搜索、日志分析、SIEM以及其他多種工作負(fù)載。
2、使用UltraWarm的創(chuàng)新功能管理運(yùn)營成本。
3、提供可滿足PCI及HIPAA工作負(fù)載實際要求的高安全性環(huán)境。
4、能夠?qū)⑦\(yùn)營流程移交給經(jīng)驗豐富的服務(wù)商,由他們負(fù)責(zé)管理Elasticsearch的大規(guī)模運(yùn)行。
5、提供免費(fèi)插件,借此實現(xiàn)細(xì)粒度訪問控制、基于矢量的相似性算法以及基于事件自動響應(yīng)的警報與監(jiān)控功能。
在起步階段,大家可以嘗試將Amazon ES與AWS Free Tier配合使用。該免費(fèi)層每月提供最多750個小時的t2.small.elasticsearch實例免費(fèi)使用時長,且每月提供10 GB的EBS存儲(磁盤或通用)。
服務(wù)簡介
Amazon Kinesis Data Analytics
無服務(wù)器流式數(shù)據(jù)處理服務(wù)
Amazon Kinesis流式數(shù)據(jù)處理服務(wù)憑借強(qiáng)大的實時處理功能、無需預(yù)置或管理任何基礎(chǔ)設(shè)施、按實際用量付費(fèi)這些特點,可以幫助企業(yè)快速構(gòu)建流式數(shù)據(jù)處理、分析平臺,獲得對企業(yè)業(yè)務(wù)運(yùn)營的洞察,并幫助企業(yè)實時響應(yīng)業(yè)務(wù)和客戶的需求,加速企業(yè)的數(shù)字化轉(zhuǎn)型。
流處理技術(shù)源于企業(yè)的實際需求,這些企業(yè)經(jīng)歷了數(shù)據(jù)量、數(shù)據(jù)產(chǎn)生速度和數(shù)據(jù)種類的巨大增長,并且迫切需要快速攝取和評估這些數(shù)據(jù)來進(jìn)行業(yè)務(wù)決策。
與傳統(tǒng)系統(tǒng)的批處理模式(“靜態(tài)數(shù)據(jù)”)相比,處理和分析“運(yùn)動”中數(shù)據(jù)的能力已是企業(yè)間的關(guān)鍵差異因素之一。尤其在企業(yè)進(jìn)行數(shù)字化轉(zhuǎn)型的今天,企業(yè)迫切需要對當(dāng)下正在發(fā)生的事情進(jìn)行分析的需求,而不是對昨天或上個月發(fā)生的事情進(jìn)行分析。因此流式數(shù)據(jù)對企業(yè)越來越重要,因為它能讓企業(yè)具有競爭優(yōu)勢。事件發(fā)生后,當(dāng)下的見解會立即變得有價值,隨著時間的流逝其價值會迅速下降。
從物聯(lián)網(wǎng)、金融、網(wǎng)絡(luò)安全到零售,實時分析、行動能力已經(jīng)成為多個領(lǐng)域SLA的關(guān)鍵要素,企業(yè)正在將流式數(shù)據(jù)與數(shù)據(jù)處理引擎和框架結(jié)合在一起來創(chuàng)建流數(shù)據(jù)應(yīng)用程序。這類名詞有很多,實時分析、流分析、復(fù)雜事件處理(CEP)、實時流分析和事件處理等。