騰訊云CKafka聯(lián)合云函數(shù)重磅上線DataHub,讓數(shù)據(jù)流轉更簡便

來源: 騰訊云云函數(shù)
作者:騰訊云小Q妹
時間:2021-12-22
14676
隨著大數(shù)據(jù)時代的到來,各大互聯(lián)網(wǎng)公司對于數(shù)據(jù)的重視程度前所未有,各種業(yè)務對數(shù)據(jù)的依賴也越來越重。

隨著大數(shù)據(jù)時代的到來,各大互聯(lián)網(wǎng)公司對于數(shù)據(jù)的重視程度前所未有,各種業(yè)務對數(shù)據(jù)的依賴也越來越重。有一種觀點認為大數(shù)據(jù)存在“3V”特性:Volume,Velocity,Variety。這三個“V”表明大數(shù)據(jù)的三方面特征:量大,實時和多樣。這三個主要特征對數(shù)據(jù)采集系統(tǒng)的影響尤為突出。多種多樣的數(shù)據(jù)源,海量的數(shù)據(jù)以及實時高效的采集是數(shù)據(jù)采集系統(tǒng)主要面對的幾個問題。

我們想要在數(shù)據(jù)上創(chuàng)造價值,首先要解決數(shù)據(jù)獲取的問題。因為在互聯(lián)網(wǎng)發(fā)展中,企業(yè)內(nèi)或不同企業(yè)之間建立了各種不同的業(yè)務系統(tǒng),這些系統(tǒng)產(chǎn)生的數(shù)據(jù)也都是互不相通的,要想實現(xiàn)數(shù)據(jù)的互通與融合,在數(shù)據(jù)的獲取與處理上就需要下很大功夫。

01.

騰訊云CKafka重磅上線DataHub

騰訊云消息隊列CKafka正式上線數(shù)據(jù)中心接入服務模塊DataHub。DataHub具有強大的數(shù)據(jù)接入及分析處理的功能,可以從App、Web、MongoDB等數(shù)據(jù)源中進行持續(xù)不斷的數(shù)據(jù)采集,存儲和處理,并得到各種實時的數(shù)據(jù)處理結果,可用于日志分析、網(wǎng)頁活動追蹤、IoT分析應用等。

現(xiàn)今數(shù)據(jù)處理系統(tǒng)大體上可分為離線處理系統(tǒng)和在線處理系統(tǒng)。CKafka推出Datahub數(shù)據(jù)中心接入服務模塊,負責直接從業(yè)務數(shù)據(jù)源獲取數(shù)據(jù),進行一些數(shù)據(jù)預處理工作,分發(fā)給離線/在線處理平臺,構建數(shù)據(jù)源和數(shù)據(jù)處理系統(tǒng)間的橋梁,將數(shù)據(jù)處理系統(tǒng)同業(yè)務側的數(shù)據(jù)源解耦。

02.

DataHub產(chǎn)品優(yōu)勢

DataHub基于CKafka的數(shù)據(jù)處理能力,具有高穩(wěn)定、實時性、高擴展性、高安全性等優(yōu)勢:

·高穩(wěn)定

基于消息隊列CKafka分布式的部署,穩(wěn)定性有很好的保障。

·實時性

數(shù)據(jù)采集實時高效的同時還可以進行實時處理。

·高擴展性

支持集群水平擴容,實例無縫升配,底層系統(tǒng)根據(jù)業(yè)務規(guī)模自動彈性伸縮,上層業(yè)務無感知。

·高安全性

不同租戶間網(wǎng)絡隔離,實例的網(wǎng)絡訪問在賬戶間天然隔離。支持管理流的CAM鑒權及數(shù)據(jù)流的SASL權限控制,嚴格控制訪問權限。

·上下游生態(tài)融合

支持與EMR、COS、容器、流計算、云函數(shù)、日志服務等13+云上產(chǎn)品資源,實現(xiàn)快速一鍵部署。

·統(tǒng)一運維監(jiān)控

提供騰訊云平臺整套的運維服務,包括租戶隔離、權限控制、消息堆積查詢、消費者詳情查看等多維度監(jiān)控告警等運維服務。

03.

DataHub應用價值

CKafka是一個分布式、高吞吐量、高可擴展性的消息系統(tǒng),基于發(fā)布/訂閱模式,通過消息解耦,使生產(chǎn)者和消費者異步交互,具有數(shù)據(jù)壓縮、同時支持離線和實時數(shù)據(jù)處理等優(yōu)點。DataHub作為CKafka的一個功能模塊,可以幫助用戶以CKafka為入口,通過簡單的界面化配置,即時連接到常用的數(shù)據(jù)源和接收器,打包各個場景的解決方案,實現(xiàn)實時數(shù)據(jù)通道、實時數(shù)據(jù)清洗和分析的功能。

在實際應用中,DataHub實時接入各種數(shù)據(jù)源產(chǎn)生的不同類型的數(shù)據(jù),用戶可以將多個數(shù)據(jù)源的數(shù)據(jù)投遞到同一個Topic中,統(tǒng)一管理,經(jīng)過簡單的數(shù)據(jù)處理,并投遞到下游的數(shù)據(jù)處理系統(tǒng),形成清晰的數(shù)據(jù)流,更好地釋放數(shù)據(jù)的價值。

640.webp.jpg

DataHub可以同時實現(xiàn)大數(shù)據(jù)系統(tǒng)與業(yè)務系統(tǒng)以及大數(shù)據(jù)系統(tǒng)各組件之間的解耦。

1.實時數(shù)據(jù)通道

我們都知道不同企業(yè)之間、不同業(yè)務之間數(shù)據(jù)互不相通,互不融合的數(shù)據(jù)在數(shù)據(jù)獲取、傳輸上會遇到很多問題,比如可用性差、傳輸延遲等。業(yè)務層面,也會遇到舊業(yè)務數(shù)據(jù)系統(tǒng)遷移到新系統(tǒng)、不同系統(tǒng)數(shù)據(jù)整合過程中數(shù)據(jù)不可用等問題,進而影響業(yè)務的后續(xù)進行。

為了能夠讓數(shù)據(jù)更加實時高效地融合,DataHub利用數(shù)據(jù)接入能力,使業(yè)務數(shù)據(jù)能夠實時融合進大數(shù)據(jù)系統(tǒng),縮短數(shù)據(jù)分析周期,對于客戶來說就是實時的數(shù)據(jù)通道,那DataHub又是如何實現(xiàn)數(shù)據(jù)接入能力的呢?

640.webp (1).jpg

從上圖可以看出,DataHub的數(shù)據(jù)源可以分為:主動上報、服務類和日志類。

·主動上報類:App、Web、游戲等;

·服務類:MongoDB、COS、MySQL等;

·日志類:容器、網(wǎng)絡流日志、CVM等。

數(shù)據(jù)接入的控制臺界面如圖所示,展示用戶建立的數(shù)據(jù)接入任務列表。

640.webp.jpg

點擊列表項可以查看每一條數(shù)據(jù)接入任務的詳情,可以查看監(jiān)控。

640.webp (1).jpg640.webp (2).jpg

數(shù)據(jù)接入具體操作主要分為以下兩個部分:

1.主動上報:提供SDK,使用流程如下:

640.webp (3).jpg

·以HTTP上報為例:

640.webp (4).jpg640.webp (5).jpg

任務創(chuàng)建成功后會生成接入點,后續(xù)在任務詳情中可以查看和復制該接入點。

640.webp (6).jpg

2.異步拉取

服務類、日志類、接口類,提供完整的產(chǎn)品化配置界面,用戶無需關心底層實現(xiàn)。

·以MongoDB為例:

640.webp (7).jpg640.webp (8).jpg

2.實時數(shù)據(jù)清洗和分析

DataHub接入多種不同類型的數(shù)據(jù)后,通過數(shù)據(jù)流出和數(shù)據(jù)處理,對多種數(shù)據(jù)源的數(shù)據(jù)進行實時清洗、過濾、關聯(lián)與轉換,形成統(tǒng)一的結構化數(shù)據(jù),實現(xiàn)各數(shù)據(jù)源不同類型數(shù)據(jù)的融合。

DataHub又是如何進行數(shù)據(jù)清洗和分析處理的呢?

1.數(shù)據(jù)流出

利用云函數(shù)SCF或者sink connector,分發(fā)數(shù)據(jù)到下游的各種云產(chǎn)品。

·新建數(shù)據(jù)流出任務

640.webp.jpg640.webp (1).jpg

點擊提交后會在數(shù)據(jù)流出任務列表增加一條記錄,可以查看任務詳情和監(jiān)控。

2.數(shù)據(jù)處理

DataHub延續(xù)了Kafka to Kafka的數(shù)據(jù)處理能力。

1640149407(1).png

點擊“新建任務”,出現(xiàn)彈窗:

640.webp (3).jpg640.webp (4).jpg

以上是一些簡單清洗規(guī)則界面化展示,更高級的清洗規(guī)則后續(xù)會支持編寫函數(shù)進行配置。解析模式支持JSON、分隔符、正則表達式,點擊測試可以驗證上面設置的數(shù)據(jù)處理規(guī)則。

如下圖所示,在消息隊列CKafka控制臺的側邊欄劃分為消息平臺和DataHub兩個模塊,查找使用更方便,目前DataHub已經(jīng)上線,有需要使用數(shù)據(jù)接入與數(shù)據(jù)處理分析功能需求的用戶,可以用起來啦!

640.webp (5).jpg

未來騰訊云消息隊列產(chǎn)品的發(fā)展會在數(shù)據(jù)獲取與數(shù)據(jù)處理方向做更深的探索,也會結合上下游產(chǎn)品,為用戶提供更多符合場景的解決方案,DataHub未來可以發(fā)展為云上統(tǒng)一的數(shù)據(jù)接入服務,為各數(shù)據(jù)源數(shù)據(jù)的接入、分析與處理提供更穩(wěn)定的平臺。

04.

DataHub使用咨詢

目前DataHub都已全面發(fā)布上線,前往騰訊云消息隊列Ckafka控制臺即可使用體驗。

立即登錄,閱讀全文
版權說明:
本文內(nèi)容來自于騰訊云云函數(shù),本站不擁有所有權,不承擔相關法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家