數據中臺自14年至今,已然成為了2B、2G業(yè)務最熱門的話題,政府機構、企事業(yè)單位、互聯網公司等進行著數字化、數據化、智能化轉型。市場普遍認為,阿里巴巴將自身數據中臺建設能力對外賦能是拉起本輪數據中臺浪潮的根本所在。
本文將帶你全面了解阿里巴巴做數據中臺的歷史。
1、緣起
在2014年以前,阿里巴巴有很多條業(yè)務線,都有自己的ETL團隊,每個ETL團隊建設和維護自己的數據體系。當時許多人認為,這種自下而上的自給自足能夠最高效地滿足業(yè)務需求。也因此,各個ETL團隊之間缺乏相互信任,也缺乏最大化互通的可能性。
即便在2020年的很多公司,這種現象也普通存在。不同部門、不同業(yè)務、不同系統之間都有自己單獨的ETL處理體系,每個ETL體系只關注與自己垂直業(yè)務相關的需求,并從底向上完整支撐業(yè)務體系。這種情況的出現,大多是由于業(yè)務發(fā)展迅速,為了快速低成本的滿足業(yè)務數據需求,單獨拉出數據支撐團隊造成的。
對于當時的阿里巴巴而言,這種分散數據處理體系帶來了很多問題。以日志采集數據為例,就同時存在若干份數據:淘寶數據基礎層、廣告數據基礎層、搜索數據基礎層各有一份日志數據,不僅直接耗費了非常多的存儲資源,更重要的是扼殺了數據中間層和數據應用層等復用的可能性。
2014年以前阿里巴巴分業(yè)務自建數據體系的抽象圖
下圖展示的是2014年以前,阿里巴巴各個數據團隊建設的數據任務關系圖。每個圓形代表著一條業(yè)務線的數據任務集合,任意兩個圓形之間的連線代表著兩者的關系。由此可見:數據處理流向是混亂的、無方向性的;數據管理是無序的,基本處于失控狀態(tài);除了浪費研發(fā)資源和存儲資源,也必然滿足不了業(yè)務需求。
阿里巴巴數據公共層建設之初計算環(huán)境1上的數據任務關系圖
業(yè)務猛烈發(fā)展與數據支撐能力不匹配產生了巨大的矛盾,也促使阿里巴巴內部開始進行數據公共層的建設,數據公共層旨在可持續(xù)地建設阿里巴巴智能大數據體系。
2、發(fā)展
-從零散的數據到統一的數據
從2014年起,阿里巴巴啟動數據公共層建設項目,以OneData體系特別是方法論為指導。
數據公共層建設初期是為了消除因"煙囪式"開發(fā)給業(yè)務帶來的困擾和技術上的浪費。而OneData體系是保障和推進項目建設的關鍵。OneData體系一方面致力于數據標準的統一,另一方面追求讓數據變?yōu)橘Y產而非成本。OneData體系除了方法論,還包含工具型產品、規(guī)范等,具體體現為:數據規(guī)范定義、數據模型定義、模型智能化設計、規(guī)范ETL開發(fā)、落實數據規(guī)范和模型定義的研發(fā)工具、對于整個體系的自動化調優(yōu)和監(jiān)控。
通過建設統一的ODS數據基礎層,建設基于業(yè)務應用或需求來源端的抽象數據邏輯層來豐富數據中間層,允許數據應用層的百花齊放來打造阿里巴巴數據公共層。從而將零散的數據變?yōu)榻y一的數據。
-從數據孤島到數據融通
在業(yè)務突飛猛進發(fā)展過程中,不同的事業(yè)部、業(yè)務條線會為了快速實現需求,數據單獨定義、存儲、使用,從客觀性來講,每個發(fā)展壯大的企事業(yè)單位都避免不了數據孤島的產生。數據孤島不僅包含物理孤島(獨立存儲、維護、使用),而且包含邏輯孤島(定義不一致、計算邏輯不一致)。
阿里巴巴創(chuàng)新性的創(chuàng)建OneID體系,將所有業(yè)務范圍(電商、金融、廣告、物流、文化、教育、娛樂、設備、社交等)中的人、貨、場、物、錢等實體打通,解決體系內邏輯性數據孤島問題。在阿里云的強力支撐下,集團內所有隔離數據進行統一的存儲和管理,解決體系內物理孤島問題。
從數據孤島到數據融通,使得數據擁有創(chuàng)造價值的可能性。
-從授人以魚到授人以漁
從以定制化開發(fā)的方式將數據交付到業(yè)務人員,到基于數據規(guī)范但需要配置,再到全鏈路數據打通,直到主題式服務,阿里巴巴一次次努力追求的正式從授人以魚到授人以漁。
2012年前后,服務于1688有超過300多個API,梳理后發(fā)現這些API之間無法整合,因為每個API只服務于一個業(yè)務應用而不能被共享,API應用的數據應用層數據表也不能被共享。
從2012年至2016年,阿里巴巴通過OneService體系將API數據服務從物理表SQL模式升級至面向主體查詢邏輯模型的SQL模型,大大提升了系統的可用性,也使得數據中臺面向業(yè)務人員使用變成了現實,達到了授人以漁的目標。
3、從數據成本到數據價值
對于大部分企業(yè)來說,業(yè)務系統創(chuàng)造的數據不僅需要占據大部分的存儲空間,而且還需要技術人員持續(xù)維護,是一筆不小的成本開支。
阿里巴巴致力于將數據從成本中心變?yōu)橘Y產中心,在業(yè)務數據化與數據業(yè)務化兩大方向,數據賦能業(yè)務、驅動創(chuàng)新四大業(yè)務場景上取得了豐碩的成功。
數據中臺賦能業(yè)務、驅動創(chuàng)新的四大典型場景包含:全局數據監(jiān)控、數據化運營、數據植入業(yè)務、數據業(yè)務化。
全局數據監(jiān)控,如戰(zhàn)略決策的智能方案:最大限度降低數據分析的難度,最大程度提高數據分析效果,同時不動聲色中傳遞品牌價值,以高效優(yōu)質地輔助戰(zhàn)略決策和數據化運營。
雙十一數據大屏&銀泰互動大屏
數據化運營,如用戶管理的智能方案:基于全鏈路全渠道的數據構建、數據連接與萃取管理體系,對用戶進行全生命周期的精細化管理(如智能CRM)。
2017年熱播的一部電視劇,該電視劇在優(yōu)酷土豆獨家播放十天,播放量就突破了60億次,屬于"現象級IP"。但這樣的"現象級IP"并不是偶然產生的,除資本投入因素外,數據化運營在其中發(fā)揮了巨大的作用。
事前通過輿情分析鎖定IP,及時獨立采購IP;事中實時監(jiān)控流量變化、播放情況,及時調整流量入口,有針對性的推送用戶;事后,及時總結和復盤,進行用戶沉淀,挖掘相似內容,形成閉環(huán)。
*數據植入業(yè)務:智能圖像鑒別,智能客服。
通過數據模型算法,將圖像鑒別從手工變?yōu)樽詣踊?,?jié)省95%以上工作量。*
數據智能植入業(yè)務系統
數據業(yè)務化,如零售管理的智能方案:規(guī)避傳統零售的松散式管理,將庫存、定價、補貨、銷售等統一協同,整體提升線上線下零售體驗和效果(如生意參謀)。
4、集大成
到今天為止,阿里云數據中臺體系(核心產品:Dataphin、QuickBI、Quick Audience、Quick A+)經歷了阿里幾乎所有業(yè)務的考驗,包含新零售、金融、物流、營銷、旅游、健康、大文娛、社交領域。在此過程中,云上數據中臺除了形成自己的內核能力外,更向上"賦能業(yè)務前臺"、向下與"統一計算后臺"連接并與之融為一體,形成云上數據中臺業(yè)務模式。
同時,阿里巴巴從2018開始,將自身的數據中臺能力向外輸出賦能,對社會創(chuàng)造更多價值。