隨著大數(shù)據(jù)時(shí)代的到來(lái),各大互聯(lián)網(wǎng)公司對(duì)于數(shù)據(jù)的重視程度前所未有,各種業(yè)務(wù)對(duì)數(shù)據(jù)的依賴也越來(lái)越重。有一種觀點(diǎn)認(rèn)為大數(shù)據(jù)存在“3V”特性:Volume,Velocity,Variety。這三個(gè)“V”表明大數(shù)據(jù)的三方面特征:量大,實(shí)時(shí)和多樣。這三個(gè)主要特征對(duì)數(shù)據(jù)采集系統(tǒng)的影響尤為突出。多種多樣的數(shù)據(jù)源,海量的數(shù)據(jù)以及實(shí)時(shí)高效的采集是數(shù)據(jù)采集系統(tǒng)主要面對(duì)的幾個(gè)問(wèn)題。
我們想要在數(shù)據(jù)上創(chuàng)造價(jià)值,首先要解決數(shù)據(jù)獲取的問(wèn)題。因?yàn)樵诨ヂ?lián)網(wǎng)發(fā)展中,企業(yè)內(nèi)或不同企業(yè)之間建立了各種不同的業(yè)務(wù)系統(tǒng),這些系統(tǒng)產(chǎn)生的數(shù)據(jù)也都是互不相通的,要想實(shí)現(xiàn)數(shù)據(jù)的互通與融合,在數(shù)據(jù)的獲取與處理上就需要下很大功夫。
01.
騰訊云CKafka重磅上線DataHub
騰訊云消息隊(duì)列CKafka正式上線數(shù)據(jù)中心接入服務(wù)模塊DataHub。DataHub具有強(qiáng)大的數(shù)據(jù)接入及分析處理的功能,可以從App、Web、MongoDB等數(shù)據(jù)源中進(jìn)行持續(xù)不斷的數(shù)據(jù)采集,存儲(chǔ)和處理,并得到各種實(shí)時(shí)的數(shù)據(jù)處理結(jié)果,可用于日志分析、網(wǎng)頁(yè)活動(dòng)追蹤、IoT分析應(yīng)用等。
現(xiàn)今數(shù)據(jù)處理系統(tǒng)大體上可分為離線處理系統(tǒng)和在線處理系統(tǒng)。CKafka推出Datahub數(shù)據(jù)中心接入服務(wù)模塊,負(fù)責(zé)直接從業(yè)務(wù)數(shù)據(jù)源獲取數(shù)據(jù),進(jìn)行一些數(shù)據(jù)預(yù)處理工作,分發(fā)給離線/在線處理平臺(tái),構(gòu)建數(shù)據(jù)源和數(shù)據(jù)處理系統(tǒng)間的橋梁,將數(shù)據(jù)處理系統(tǒng)同業(yè)務(wù)側(cè)的數(shù)據(jù)源解耦。
02.
DataHub產(chǎn)品優(yōu)勢(shì)
DataHub基于CKafka的數(shù)據(jù)處理能力,具有高穩(wěn)定、實(shí)時(shí)性、高擴(kuò)展性、高安全性等優(yōu)勢(shì):
·高穩(wěn)定
基于消息隊(duì)列CKafka分布式的部署,穩(wěn)定性有很好的保障。
·實(shí)時(shí)性
數(shù)據(jù)采集實(shí)時(shí)高效的同時(shí)還可以進(jìn)行實(shí)時(shí)處理。
·高擴(kuò)展性
支持集群水平擴(kuò)容,實(shí)例無(wú)縫升配,底層系統(tǒng)根據(jù)業(yè)務(wù)規(guī)模自動(dòng)彈性伸縮,上層業(yè)務(wù)無(wú)感知。
·高安全性
不同租戶間網(wǎng)絡(luò)隔離,實(shí)例的網(wǎng)絡(luò)訪問(wèn)在賬戶間天然隔離。支持管理流的CAM鑒權(quán)及數(shù)據(jù)流的SASL權(quán)限控制,嚴(yán)格控制訪問(wèn)權(quán)限。
·上下游生態(tài)融合
支持與EMR、COS、容器、流計(jì)算、云函數(shù)、日志服務(wù)等13+云上產(chǎn)品資源,實(shí)現(xiàn)快速一鍵部署。
·統(tǒng)一運(yùn)維監(jiān)控
提供騰訊云平臺(tái)整套的運(yùn)維服務(wù),包括租戶隔離、權(quán)限控制、消息堆積查詢、消費(fèi)者詳情查看等多維度監(jiān)控告警等運(yùn)維服務(wù)。
03.
DataHub應(yīng)用價(jià)值
CKafka是一個(gè)分布式、高吞吐量、高可擴(kuò)展性的消息系統(tǒng),基于發(fā)布/訂閱模式,通過(guò)消息解耦,使生產(chǎn)者和消費(fèi)者異步交互,具有數(shù)據(jù)壓縮、同時(shí)支持離線和實(shí)時(shí)數(shù)據(jù)處理等優(yōu)點(diǎn)。DataHub作為CKafka的一個(gè)功能模塊,可以幫助用戶以CKafka為入口,通過(guò)簡(jiǎn)單的界面化配置,即時(shí)連接到常用的數(shù)據(jù)源和接收器,打包各個(gè)場(chǎng)景的解決方案,實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)通道、實(shí)時(shí)數(shù)據(jù)清洗和分析的功能。
在實(shí)際應(yīng)用中,DataHub實(shí)時(shí)接入各種數(shù)據(jù)源產(chǎn)生的不同類型的數(shù)據(jù),用戶可以將多個(gè)數(shù)據(jù)源的數(shù)據(jù)投遞到同一個(gè)Topic中,統(tǒng)一管理,經(jīng)過(guò)簡(jiǎn)單的數(shù)據(jù)處理,并投遞到下游的數(shù)據(jù)處理系統(tǒng),形成清晰的數(shù)據(jù)流,更好地釋放數(shù)據(jù)的價(jià)值。
DataHub可以同時(shí)實(shí)現(xiàn)大數(shù)據(jù)系統(tǒng)與業(yè)務(wù)系統(tǒng)以及大數(shù)據(jù)系統(tǒng)各組件之間的解耦。
1.實(shí)時(shí)數(shù)據(jù)通道
我們都知道不同企業(yè)之間、不同業(yè)務(wù)之間數(shù)據(jù)互不相通,互不融合的數(shù)據(jù)在數(shù)據(jù)獲取、傳輸上會(huì)遇到很多問(wèn)題,比如可用性差、傳輸延遲等。業(yè)務(wù)層面,也會(huì)遇到舊業(yè)務(wù)數(shù)據(jù)系統(tǒng)遷移到新系統(tǒng)、不同系統(tǒng)數(shù)據(jù)整合過(guò)程中數(shù)據(jù)不可用等問(wèn)題,進(jìn)而影響業(yè)務(wù)的后續(xù)進(jìn)行。
為了能夠讓數(shù)據(jù)更加實(shí)時(shí)高效地融合,DataHub利用數(shù)據(jù)接入能力,使業(yè)務(wù)數(shù)據(jù)能夠?qū)崟r(shí)融合進(jìn)大數(shù)據(jù)系統(tǒng),縮短數(shù)據(jù)分析周期,對(duì)于客戶來(lái)說(shuō)就是實(shí)時(shí)的數(shù)據(jù)通道,那DataHub又是如何實(shí)現(xiàn)數(shù)據(jù)接入能力的呢?
從上圖可以看出,DataHub的數(shù)據(jù)源可以分為:主動(dòng)上報(bào)、服務(wù)類和日志類。
·主動(dòng)上報(bào)類:App、Web、游戲等;
·服務(wù)類:MongoDB、COS、MySQL等;
·日志類:容器、網(wǎng)絡(luò)流日志、CVM等。
數(shù)據(jù)接入的控制臺(tái)界面如圖所示,展示用戶建立的數(shù)據(jù)接入任務(wù)列表。
點(diǎn)擊列表項(xiàng)可以查看每一條數(shù)據(jù)接入任務(wù)的詳情,可以查看監(jiān)控。
數(shù)據(jù)接入具體操作主要分為以下兩個(gè)部分:
1.主動(dòng)上報(bào):提供SDK,使用流程如下:
·以HTTP上報(bào)為例:
任務(wù)創(chuàng)建成功后會(huì)生成接入點(diǎn),后續(xù)在任務(wù)詳情中可以查看和復(fù)制該接入點(diǎn)。
2.異步拉取
服務(wù)類、日志類、接口類,提供完整的產(chǎn)品化配置界面,用戶無(wú)需關(guān)心底層實(shí)現(xiàn)。
·以MongoDB為例:
2.實(shí)時(shí)數(shù)據(jù)清洗和分析
DataHub接入多種不同類型的數(shù)據(jù)后,通過(guò)數(shù)據(jù)流出和數(shù)據(jù)處理,對(duì)多種數(shù)據(jù)源的數(shù)據(jù)進(jìn)行實(shí)時(shí)清洗、過(guò)濾、關(guān)聯(lián)與轉(zhuǎn)換,形成統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)各數(shù)據(jù)源不同類型數(shù)據(jù)的融合。
DataHub又是如何進(jìn)行數(shù)據(jù)清洗和分析處理的呢?
1.數(shù)據(jù)流出
利用云函數(shù)SCF或者sink connector,分發(fā)數(shù)據(jù)到下游的各種云產(chǎn)品。
·新建數(shù)據(jù)流出任務(wù)
點(diǎn)擊提交后會(huì)在數(shù)據(jù)流出任務(wù)列表增加一條記錄,可以查看任務(wù)詳情和監(jiān)控。
2.數(shù)據(jù)處理
DataHub延續(xù)了Kafka to Kafka的數(shù)據(jù)處理能力。
點(diǎn)擊“新建任務(wù)”,出現(xiàn)彈窗:
以上是一些簡(jiǎn)單清洗規(guī)則界面化展示,更高級(jí)的清洗規(guī)則后續(xù)會(huì)支持編寫(xiě)函數(shù)進(jìn)行配置。解析模式支持JSON、分隔符、正則表達(dá)式,點(diǎn)擊測(cè)試可以驗(yàn)證上面設(shè)置的數(shù)據(jù)處理規(guī)則。
如下圖所示,在消息隊(duì)列CKafka控制臺(tái)的側(cè)邊欄劃分為消息平臺(tái)和DataHub兩個(gè)模塊,查找使用更方便,目前DataHub已經(jīng)上線,有需要使用數(shù)據(jù)接入與數(shù)據(jù)處理分析功能需求的用戶,可以用起來(lái)啦!
未來(lái)騰訊云消息隊(duì)列產(chǎn)品的發(fā)展會(huì)在數(shù)據(jù)獲取與數(shù)據(jù)處理方向做更深的探索,也會(huì)結(jié)合上下游產(chǎn)品,為用戶提供更多符合場(chǎng)景的解決方案,DataHub未來(lái)可以發(fā)展為云上統(tǒng)一的數(shù)據(jù)接入服務(wù),為各數(shù)據(jù)源數(shù)據(jù)的接入、分析與處理提供更穩(wěn)定的平臺(tái)。
04.
DataHub使用咨詢
目前DataHub都已全面發(fā)布上線,前往騰訊云消息隊(duì)列Ckafka控制臺(tái)即可使用體驗(yàn)。