當下,中國已經(jīng)成為全球最大的數(shù)據(jù)生產(chǎn)國,其中物聯(lián)網(wǎng)的數(shù)據(jù)產(chǎn)生量備受關注。據(jù)前瞻產(chǎn)業(yè)研究院發(fā)布的《2019年中國大數(shù)據(jù)產(chǎn)業(yè)全景圖譜》顯示,預計2025年,物聯(lián)網(wǎng)數(shù)據(jù)占比將增加到21%,增速最快。而物聯(lián)網(wǎng)數(shù)據(jù)本身價值密度小、數(shù)據(jù)體量大、數(shù)據(jù)時效性高、數(shù)據(jù)質(zhì)量低等特點,使得物聯(lián)網(wǎng)數(shù)據(jù)分析面臨著諸多的關鍵挑戰(zhàn),很難發(fā)揮其真正的效用。
7月18日,在【DevRun開發(fā)者沙龍——華為云深圳金蝶專場】上,華為云為開發(fā)者分享了“以孿生模型驅(qū)動的IoT數(shù)據(jù)分析如何使能行業(yè)”的相關技術原理、實踐經(jīng)驗和對應方法論,為物聯(lián)網(wǎng)數(shù)據(jù)分析帶來新的機遇。
以下內(nèi)容經(jīng)由InfoQ編輯整理自【DevRun開發(fā)者沙龍——華為云深圳金蝶專場】中張少偉老師的分享。
1.如何做好IoT數(shù)據(jù)分析
物聯(lián)網(wǎng)數(shù)據(jù)主要是指傳感器和設備發(fā)過來的數(shù)據(jù)。這些數(shù)據(jù)一部分是對現(xiàn)實環(huán)境參數(shù)的采集值,一部分是設備的一些常規(guī)信息值,比如:狀態(tài)、故障信息、錯誤代碼、運行情況等。物聯(lián)網(wǎng)數(shù)據(jù)在任何情況下都會產(chǎn)生數(shù)據(jù),無需人為參與就會不斷涌現(xiàn)出新的數(shù)據(jù),其數(shù)據(jù)量遠遠大于傳統(tǒng)業(yè)務系統(tǒng)的業(yè)務數(shù)據(jù)。這就使得企業(yè)經(jīng)常面臨高成本的數(shù)據(jù)存儲、數(shù)據(jù)處理環(huán)節(jié)低效、低質(zhì)量的數(shù)據(jù)等問題,那么該如何對這些大量的、源源不斷的IoT數(shù)據(jù)做好分析呢?
華為云提出了四點解決方案:
構建資產(chǎn)模型是充分“理解”物聯(lián)網(wǎng)數(shù)據(jù)、構建數(shù)字孿生的基礎
數(shù)字孿生,是充分利用物理模型、傳感器更新、運行歷史等數(shù)據(jù),集成多學科、多物理量、多尺度、多概率的仿真過程,在虛擬空間中完成映射,從而反映相對應的實體裝備的全生命周期過程。簡單來說,數(shù)字孿生就是對物理世界進行數(shù)字化的實時映射。
那么如何打通物理世界與數(shù)字世界的關聯(lián),如何更好地理解設備從而快捷高效地分析數(shù)據(jù),成為物聯(lián)網(wǎng)企業(yè)急需的基礎業(yè)務。張少偉認為,構建資產(chǎn)模型是充分“理解”物聯(lián)網(wǎng)數(shù)據(jù)的基礎,現(xiàn)實世界的設備不是離散的,而是具有空間、組織、人等復雜關系與上下文存在的。
以智能樓宇的行業(yè)開發(fā)為例,在實際應用開發(fā)中,由于每個樓宇、樓層的設備為離散的物理設備,如果需要按照樓宇、樓層等為單位進行統(tǒng)計并監(jiān)控設備,就需要對樓宇、設備之間的關系進行標注關聯(lián)。于是可以將IoT數(shù)據(jù)放置于一個上下文關系中理解,將數(shù)據(jù)以下圖所示的層次結(jié)構管理再去做數(shù)據(jù)分析。這樣之前ID為XXX的溫度傳感器讀數(shù)多少,在建模后可以直接用“302房間的溫度多少?”來表達。
物聯(lián)網(wǎng)數(shù)據(jù)處理的關鍵是對時序數(shù)據(jù)的處理
物聯(lián)網(wǎng)數(shù)據(jù)具備顯著的時序特征:按照時間維度上報、存儲、查詢數(shù)據(jù)。因此在做物聯(lián)網(wǎng)數(shù)據(jù)分析時,要對時序數(shù)據(jù)做充分的考慮,比如某些物聯(lián)網(wǎng)設備可能產(chǎn)生巨量數(shù)據(jù),最大限度的壓縮是減少成本的直接手段;怎樣滿足海量設備高并發(fā),實時寫入的要求;面對長時間積累的物聯(lián)網(wǎng)數(shù)據(jù),如何滿足高性能查詢,特別是經(jīng)常做時間維度的聚合查詢;以及在時間的維度上對海量的物聯(lián)網(wǎng)產(chǎn)生的時序數(shù)據(jù)做時間維度的查詢計算等。
將數(shù)據(jù)時效性分層處理,獲得綜合處理效率最大化
在數(shù)據(jù)接入后,可以將物聯(lián)網(wǎng)數(shù)據(jù)總結(jié)為冷數(shù)據(jù)、熱數(shù)據(jù)、溫數(shù)據(jù)。冷數(shù)據(jù)是對于離線類不經(jīng)常訪問的歸檔數(shù)據(jù),在需要時對數(shù)據(jù)做批處理;熱數(shù)據(jù)是需要被計算節(jié)點實時處理和分析的數(shù)據(jù),對時效性非常敏感;溫數(shù)據(jù)是近期需要頻繁處理的數(shù)據(jù)。將這些數(shù)據(jù)進行如下圖所示的分層處理,以實現(xiàn)綜合處理的效率最大化。
高效的數(shù)據(jù)清洗,為數(shù)據(jù)分析輸入高質(zhì)量的數(shù)據(jù)
在做物聯(lián)網(wǎng)分析時,因為物聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量的問題,物聯(lián)網(wǎng)數(shù)據(jù)清洗是一項重要的環(huán)節(jié),如下圖所示。物聯(lián)網(wǎng)數(shù)據(jù)中,經(jīng)常出現(xiàn)一些典型的問題,比如缺值、數(shù)據(jù)的異常跳變、重復數(shù)據(jù)、格式差異、噪音干擾等,數(shù)據(jù)清洗環(huán)節(jié)可以幫助數(shù)據(jù)分析的開發(fā)者改善數(shù)據(jù)質(zhì)量。此外,在做數(shù)據(jù)清洗的過程中,有兩點非常重要,第一個是實時性,上文提到物聯(lián)網(wǎng)數(shù)據(jù)實時性要求比較高,這里同樣希望可以進行實時的數(shù)據(jù)清洗;另外數(shù)據(jù)清洗可以適應IoT非結(jié)構化或者半結(jié)構化的數(shù)據(jù)特征,通過清洗再提供相對高質(zhì)量的數(shù)據(jù)。
2.華為云IoT一站式物聯(lián)網(wǎng)數(shù)據(jù)分析服務——IoTA
基于以上四點,華為云推出以資產(chǎn)模型為驅(qū)動的一站式物聯(lián)網(wǎng)數(shù)據(jù)分析服務——IoTA,基于物聯(lián)網(wǎng)資產(chǎn)模型,整合大數(shù)據(jù)分析領域的最佳實踐,實現(xiàn)物聯(lián)網(wǎng)數(shù)據(jù)集成、清洗、存儲、分析、可視化,為開發(fā)者打造一站式數(shù)據(jù)開發(fā)體驗,并與華為云物聯(lián)網(wǎng)相關云服務(比如設備接入)無縫對接,降低開發(fā)門檻,縮短開發(fā)周期,快速實現(xiàn)物聯(lián)網(wǎng)數(shù)據(jù)價值變現(xiàn)。結(jié)構如下圖所示。
左邊是兩種類型的數(shù)據(jù)源,一種是IoT設備實時采集的物聯(lián)網(wǎng)數(shù)據(jù),實時數(shù)據(jù)源;另一種是IoT子系統(tǒng)中需要批量導入的數(shù)據(jù)。
中間是華為云的IoT數(shù)據(jù)分析服務IoTA,大概分為幾個板塊:首先是數(shù)據(jù)清洗的功能板塊,通過Data Pipeline即數(shù)據(jù)管道實現(xiàn),能夠把數(shù)據(jù)從管道里面進行相應的處理,并提供了一些清洗算子,例如轉(zhuǎn)換、刪除、去重、插值、降噪等,將原始數(shù)據(jù)變?yōu)楦哔|(zhì)量數(shù)據(jù)。為了降低數(shù)據(jù)清洗開發(fā)的難度,華為云IoTA提供圖形化的IDE環(huán)境,開發(fā)者通過簡單的拖拽即可完成。其次是溫冷分層存儲功能和資產(chǎn)模型。IoTA的溫冷分層存儲集成了時序和對象存儲,幫助開發(fā)者以分層的方式管理數(shù)據(jù)。資產(chǎn)模型功能可以讓開發(fā)者快速地進行建模,描述物理空間中的對象,一旦模型構建起來,后面就可以基于該模型進行相應的數(shù)據(jù)分析。右邊是數(shù)據(jù)分析板塊,華為云IoTA集成了時序分析、流分析以及離線分析,提供相應的計算引擎,最后是提供面向特定行業(yè)的行業(yè)分析套件,提供面向行業(yè)場景化的分析能力封裝。
需要強調(diào)的是,華為云IoTA具備五個關鍵價值:
簡化數(shù)據(jù)開發(fā)過程,降低門檻,加速業(yè)務上線
之前,數(shù)據(jù)開發(fā)過程的技術門檻較高,很多物聯(lián)網(wǎng)領域的中小企業(yè)因為缺乏專業(yè)數(shù)據(jù)分析領域的人才,實施起來較為困難,比如應該選擇什么樣的數(shù)據(jù)平臺架構設計?Lamda or Kappa or其他?公有云上的大數(shù)據(jù)PaaS服務琳瑯滿目,選擇哪些組件最適合我的IoT項目呢?在這個過程中,華為云IoTA提供了一站式的物聯(lián)網(wǎng)數(shù)據(jù)分析,讓開發(fā)者做到開箱即用,包括數(shù)據(jù)集成,數(shù)據(jù)清洗,數(shù)據(jù)存儲,數(shù)據(jù)建模,數(shù)據(jù)分析,數(shù)據(jù)可視化,整個過程縮短開發(fā)周期40%以上;在技術選型上,IoTA充分考慮當前技術趨勢,利用比如存算分離,孿生建模,Serverless,實時清洗等技術,使用戶無需感知復雜技術,減少高端技術人員雇傭費用。
通過資產(chǎn)建模,將IoT數(shù)據(jù)轉(zhuǎn)化為有語義的數(shù)據(jù)
區(qū)別于公有云通用類大數(shù)據(jù)分析相關服務,華為云IoT物聯(lián)網(wǎng)數(shù)據(jù)分析服務與資產(chǎn)模型深度整合,以Digital Twin資產(chǎn)模型為中心驅(qū)動數(shù)據(jù)分析,開發(fā)者可以直接使用統(tǒng)一的物聯(lián)網(wǎng)模型數(shù)據(jù),大大提升數(shù)據(jù)分析的效率。通過構建物與物,物與空間,物與人等復雜關系,將物聯(lián)網(wǎng)數(shù)據(jù)置于模型的“上下文”中去理解;通過“IoT+資產(chǎn)模型”,在數(shù)字世界中構建與物理世界準實時同步的數(shù)字孿生;基于模型抽象,為數(shù)據(jù)分析提供面向業(yè)務的接口封裝。
其具備四點核心功能:1.利用樹狀層級結(jié)構描述復雜物理對象的內(nèi)在關系,比如空間關系,組合關系,上下游關系等;2.虛測點支持豐富的計算算子,比如四則運算,科學計數(shù)法,三角函數(shù),滑窗,流計算等;3.支持定義資產(chǎn)模板,快速復制;4.所見即所得的圖形化編輯方式,簡化復雜資產(chǎn)開發(fā)難度。
實時數(shù)據(jù)清洗,改善物聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量
如下圖所示為華為云IoTA的數(shù)據(jù)管道,在這個數(shù)據(jù)管道中,主要包括五個功能。第一,提供圖形化的開發(fā)環(huán)境,拖拽即可完成數(shù)據(jù)清洗和預處理;第二,基于流計算引擎,滿足對IoT數(shù)據(jù)處理高實時性要求;第三,含有豐富的IoT清洗算子(10+),可以應對各種IoT數(shù)據(jù)問題;第四,具備IoT數(shù)據(jù)質(zhì)量評估系統(tǒng),為數(shù)據(jù)質(zhì)量打分;第五,靈活的數(shù)據(jù)流轉(zhuǎn)控制,滿足各種數(shù)據(jù)分析應用場景的需要。
分層的IoT數(shù)據(jù)存儲機制,降低數(shù)據(jù)存儲和管理成本
華為云IoTA將數(shù)據(jù)存儲分為溫數(shù)據(jù)存儲和冷數(shù)據(jù)存儲。溫數(shù)據(jù)存儲采用適用物聯(lián)網(wǎng)數(shù)據(jù)特征的時序數(shù)據(jù)庫技術,基于SSD存儲介質(zhì),滿足ms級數(shù)據(jù)查詢要求;冷數(shù)據(jù)存儲采用可靠安全的對象存儲,價格低廉,并結(jié)合IoTA離線分析,輕松處理PB級數(shù)據(jù)。另外,用戶在管理溫冷存儲時,可以結(jié)合自己的業(yè)務需要,只需設定老化周期,就可進行溫數(shù)據(jù)存儲到冷數(shù)據(jù)存儲的自動轉(zhuǎn)存,把數(shù)據(jù)管理好。
面向物聯(lián)網(wǎng)實時數(shù)據(jù)的全面優(yōu)化
針對實時數(shù)據(jù),華為云IoTA服務對數(shù)據(jù)寫入、數(shù)據(jù)存儲、數(shù)據(jù)建模、數(shù)據(jù)洞察等模塊都做了優(yōu)化。在數(shù)據(jù)寫入模塊中,華為云IoTA支持海量時間線,并按時間線做Hash Partition,所有Shard節(jié)點并行寫入,Shard按照數(shù)據(jù)量自動分裂,同時單實例支持超10萬時間線,最大億級時間線。在數(shù)據(jù)存儲中,華為云IoTA提供列式存儲,不同數(shù)據(jù)類型(如時間類型,浮點型)采用不同壓縮算法,相比開源OpenTSDB壓縮率提升10倍。在數(shù)據(jù)建模模塊中,華為云IoTA支持按資產(chǎn)模型數(shù)據(jù)格式入庫存儲,并按模型層次快捷檢索測點時序數(shù)據(jù)。最后在數(shù)據(jù)洞察模塊中,華為云IoTA支持在線時序數(shù)據(jù)透視,支持折線圖、堆積圖、散點圖多種展現(xiàn)形式,時間軸、特定周期、定義功能齊全,便捷選擇時間段數(shù)據(jù),還可進行多種數(shù)據(jù)聚合方式展示,如最大值、最小值、平均值等。
3.華為云IoTA應用實例
智慧倉儲實時分析
如下圖所示,在倉庫的進出庫管理中,基于數(shù)據(jù)分析服務的建模能力與實時分析,利用華為公有云ModelArts進行AI推理計算,并與RFID讀寫器設備配合,對RFID數(shù)據(jù)流進行識別檢測,可實現(xiàn)秒級判斷出貨物在進出庫過程中的進出方向,繼而可自動與貨單進行校對,實時告知倉庫管理人員進出貨物的情況。
產(chǎn)線數(shù)字化
下圖所示為我國某一鋼廠基于華為云的能力進行的產(chǎn)線數(shù)字化項目,即產(chǎn)線的數(shù)字孿生。通過IoTA服務對各個工藝環(huán)節(jié)建模,幫助其實現(xiàn)質(zhì)量分析。在該場景下做產(chǎn)品的質(zhì)量分析面臨的一個關鍵環(huán)節(jié)就是時空對齊,該如何理解資產(chǎn)建模幫助構建時空關系的映射呢?想象一個軋件是一個很長的鋼板,而比如這個鋼板在偏移兩百米的空間位置上有質(zhì)量缺陷,那么我們需要知道為什么該區(qū)域質(zhì)量比較差,產(chǎn)線的各工藝環(huán)節(jié)在處理該區(qū)域的時刻,當時的工藝參數(shù)分別都是什么?這就是一個比較復雜的時空關系匹配問題。華為云IoTA對產(chǎn)線進行建模,描述產(chǎn)線這一復雜的物理對象,將物理空間中的時空關系在數(shù)字世界中進行建模,繼而給應用層開放具備語義的數(shù)據(jù),幫助應用層進一步的數(shù)據(jù)分析。
4.最后
隨著5G應用的持續(xù)深化,物聯(lián)網(wǎng)之間的連接將變得更加緊密。然而物聯(lián)網(wǎng)數(shù)據(jù)本身價值密度小、數(shù)據(jù)體量大、數(shù)據(jù)時效性高、數(shù)據(jù)質(zhì)量低等特點,使得物聯(lián)網(wǎng)數(shù)據(jù)分析面臨著諸多的關鍵挑戰(zhàn),很難真正為行業(yè)所用。而這,也一直正是華為云IoT所致力于解決的問題。