許多企業(yè)都在采用開源的大數(shù)據(jù)分析框架在本地或者云上自行運維和管理,然而他們也面臨著運營效率和成本問題。通過遷移到Amazon Web Services(AWS)上完全管理的服務,企業(yè)可以節(jié)省時間、成本并提高生產(chǎn)率,將更多的時間與精力投入到創(chuàng)新和構建新的應用程序當中。
接下來就讓我們一起了解一下如何遷移到AWS托管的大數(shù)據(jù)服務吧!
案例應用
Verizon Media Group如何從本地Apache Hadoop與Spark遷移至Amazon EMR
Verizon Media Group(VMG)
Verizon Media在本質(zhì)上屬于一家在線廣告企業(yè)。目前,大多數(shù)在線廣告主要通過展示廣告(亦稱「橫幅廣告」或「視頻廣告」)形式實現(xiàn)。無論具體采取哪種方式,所有互聯(lián)網(wǎng)廣告都需要發(fā)送各種信標以實現(xiàn)服務器跟蹤。這些服務器主要為具備高度可擴展性的Web服務器部署,負責將接收到的信標記錄至一個或者多個事件接收器當中。
Amazon EMR是一套托管集群平臺,能夠簡化各類大數(shù)據(jù)框架(例如Apache Hadoop與Apache Spark)的運行流程。
Verizon Media Group(VMG)面臨的一大主要問題,就是無法在理想的時間之內(nèi)完成計算容量擴展——硬件采購通常需要幾個月才能落實到位。這就意味著無法讓硬件的擴展與升級與工作負載變化匹配起來,這不僅造成了巨大的資金浪費,同時也給冗余管理軟件的升級流程帶來大量停機時間,進而極大提升運營風險。
VMG通過使用Apache Hadoop以及Apache Spark等技術方案運行數(shù)據(jù)處理管道。VGM之前曾經(jīng)使用過Cloudera Manager進行集群管理,但其發(fā)布周期過慢,跟不上技術發(fā)展與業(yè)務需求的變化。結果就是,VGM只能使用較為陳舊的開源版本,導致無法充分使用Apache項目上的最新bug修復與性能改進成果。出于以上原因,再加上VGM對AWS的現(xiàn)有投資,最終他們決定嘗試將分布式計算管道遷移至Amazon EMR當中。
完全托管、高度可用且安全的
Apache Kafka服務
Amazon Managed Streaming for Apache Kafka
(Amazon MSK)迎來通用版本
Apache Kafka(Kafka)是一套開源平臺,能夠幫助客戶捕捉流式數(shù)據(jù),例如單擊流事件、事務、物聯(lián)網(wǎng)事件、應用程序與機器日志等,且能夠執(zhí)行實時分析、運行連續(xù)轉換、并將數(shù)據(jù)實時分發(fā)至各數(shù)據(jù)湖與數(shù)據(jù)庫當中。
Amazon MSK是完全托管服務,可讓您輕松構建并運行使用Apache Kafka的應用程序來處理流數(shù)據(jù)。
Kafka本身已經(jīng)成為一套流行的企業(yè)級數(shù)據(jù)流與消息傳遞框架,但其在生產(chǎn)環(huán)境中的設置、擴展與管理仍然較為困難。Amazon MSK能夠幫助我們執(zhí)行這些管理任務,并結合高可用性與安全性監(jiān)管要求通過最佳實踐將Kafka輕松與Apache ZooKeeper配合起來,共同進行置備與配置。
用例分析
通往托管之路:Amazon Elasticsearch Service
Amazon Elasticsearch Service(Amazon ES)是一項完全托管的服務,方便您大規(guī)模經(jīng)濟高效地部署、保護和運行Elasticsearch。
技術團隊的最大意義,在于專注于完成真正重要的創(chuàng)新工作,打造出能夠為企業(yè)帶來差異化競爭優(yōu)勢的產(chǎn)品及服務。在這方面,Amazon ES無疑是一款必不可少的工具,能夠為您的搜索與分析基礎設施帶來強大的運營穩(wěn)定性、安全性與性能支持。面對Amazon ES帶來的以下收益,大家還有什么理由不踏上遷移之旅呢?
1、支持搜索、日志分析、SIEM以及其他多種工作負載。
2、使用UltraWarm的創(chuàng)新功能管理運營成本。
3、提供可滿足PCI及HIPAA工作負載實際要求的高安全性環(huán)境。
4、能夠?qū)⑦\營流程移交給經(jīng)驗豐富的服務商,由他們負責管理Elasticsearch的大規(guī)模運行。
5、提供免費插件,借此實現(xiàn)細粒度訪問控制、基于矢量的相似性算法以及基于事件自動響應的警報與監(jiān)控功能。
在起步階段,大家可以嘗試將Amazon ES與AWS Free Tier配合使用。該免費層每月提供最多750個小時的t2.small.elasticsearch實例免費使用時長,且每月提供10 GB的EBS存儲(磁盤或通用)。
服務簡介
Amazon Kinesis Data Analytics
無服務器流式數(shù)據(jù)處理服務
Amazon Kinesis流式數(shù)據(jù)處理服務憑借強大的實時處理功能、無需預置或管理任何基礎設施、按實際用量付費這些特點,可以幫助企業(yè)快速構建流式數(shù)據(jù)處理、分析平臺,獲得對企業(yè)業(yè)務運營的洞察,并幫助企業(yè)實時響應業(yè)務和客戶的需求,加速企業(yè)的數(shù)字化轉型。
流處理技術源于企業(yè)的實際需求,這些企業(yè)經(jīng)歷了數(shù)據(jù)量、數(shù)據(jù)產(chǎn)生速度和數(shù)據(jù)種類的巨大增長,并且迫切需要快速攝取和評估這些數(shù)據(jù)來進行業(yè)務決策。
與傳統(tǒng)系統(tǒng)的批處理模式(“靜態(tài)數(shù)據(jù)”)相比,處理和分析“運動”中數(shù)據(jù)的能力已是企業(yè)間的關鍵差異因素之一。尤其在企業(yè)進行數(shù)字化轉型的今天,企業(yè)迫切需要對當下正在發(fā)生的事情進行分析的需求,而不是對昨天或上個月發(fā)生的事情進行分析。因此流式數(shù)據(jù)對企業(yè)越來越重要,因為它能讓企業(yè)具有競爭優(yōu)勢。事件發(fā)生后,當下的見解會立即變得有價值,隨著時間的流逝其價值會迅速下降。
從物聯(lián)網(wǎng)、金融、網(wǎng)絡安全到零售,實時分析、行動能力已經(jīng)成為多個領域SLA的關鍵要素,企業(yè)正在將流式數(shù)據(jù)與數(shù)據(jù)處理引擎和框架結合在一起來創(chuàng)建流數(shù)據(jù)應用程序。這類名詞有很多,實時分析、流分析、復雜事件處理(CEP)、實時流分析和事件處理等。