從去年3月,Line和Yahoo!Japan(雅虎日本)母公司Z控股整合之后,各界就高度關(guān)注通信平臺(tái)巨頭和電商巨頭整合后將如何激發(fā)出新的火花。
Z控股訂下的首要戰(zhàn)略目標(biāo)是優(yōu)先加強(qiáng)數(shù)據(jù)治理。這是因?yàn)?,成為一家世界?jí)AI科技公司,是整合后雙方的共同戰(zhàn)略目標(biāo),而高品質(zhì)的可用資料正是邁向這個(gè)愿景的關(guān)鍵基礎(chǔ)工程。尤其,Line日本用戶、雅虎日本用戶和PayPay三大生態(tài)系整合后,用戶數(shù)達(dá)到2億人規(guī)模。如何支撐新的超大規(guī)模生態(tài)圈,從今年11月剛結(jié)束的Line與雅虎日本首次聯(lián)合技術(shù)會(huì)中,可以觀察到,資料科技和AI技術(shù)是關(guān)鍵。
擅長(zhǎng)社交平臺(tái),擁有海外多國(guó)發(fā)展經(jīng)驗(yàn)的Line,和擁有深厚電商、零售與金融產(chǎn)業(yè)布局的雅虎日本,在年會(huì)中展現(xiàn)出各自不同的技術(shù)發(fā)展重心,卻又可以互補(bǔ)。Line聚焦于發(fā)展平臺(tái)式的戰(zhàn)略型技術(shù)架構(gòu),尤其在AI架構(gòu)和資料科技平臺(tái),及區(qū)塊鏈架構(gòu)上,而雅虎日本則聚焦在擴(kuò)大AI應(yīng)用和產(chǎn)業(yè)AI實(shí)踐等。前者聚焦強(qiáng)化AI技術(shù)體質(zhì)和未來(lái)性,后者則聚焦擴(kuò)大產(chǎn)業(yè)AI版圖和業(yè)務(wù)廣度。
Line目前全球每月約2億用戶使用,累計(jì)了大量的用戶和行為資料,因此早在2019年,Line激活了一個(gè)自助式的超大規(guī)模資料平臺(tái)IU(Information Universe),后來(lái),2020年時(shí),又進(jìn)一步在IU上發(fā)展出了一層機(jī)器學(xué)習(xí)平臺(tái)MLU(Machine Learning Universe),用來(lái)支持多項(xiàng)跨服務(wù)共享的大型ML模型集群,包括NLP模型、計(jì)算機(jī)視覺(jué)模型、推薦模型、廣告優(yōu)化模型。
目前IU支持了Line內(nèi)部超過(guò)200項(xiàng)服務(wù),存儲(chǔ)了400PB的HDFS資料,超過(guò)4萬(wàn)個(gè)Hive表格,每天要執(zhí)行15萬(wàn)個(gè)任務(wù)。Line首席技術(shù)官Tomohiro Ikebe指出:“龐大資料不只是很大的存儲(chǔ)挑戰(zhàn),利用時(shí)也是很大的挑戰(zhàn)?!?/p>
IU資料平臺(tái)新變革,打造資料血統(tǒng)功能將資料變動(dòng)過(guò)程可視化
在年會(huì)中,Tomohiro Ikebe首度披露了后續(xù)IU上進(jìn)一步打造的網(wǎng)頁(yè)式資料目錄服務(wù),也就是IU Web門(mén)戶網(wǎng)站。
在這個(gè)IU Web上,提供了多項(xiàng)自動(dòng)化機(jī)制,例如元數(shù)據(jù)搜集機(jī)制、Data profiling機(jī)制、可輔助法遵需求的資料驗(yàn)證工具。另外,IU也引進(jìn)了Apache Iceberg資料湖技術(shù),并將流媒體大數(shù)據(jù)分析平臺(tái)Spark升級(jí)到3.2版。
IU Web最重要的新功能則是2021年11月新上線的Data Lineage(資料血統(tǒng))功能。Tomohiro Ikebe解釋,隨著IU上的資料流程越來(lái)越復(fù)雜,一旦發(fā)生問(wèn)題,想要找出資料間的關(guān)系,越來(lái)越困難。要解決這個(gè)問(wèn)題就需要資料血統(tǒng)機(jī)制。
資料血統(tǒng)機(jī)制可以用來(lái)關(guān)注特定資料從創(chuàng)建后到現(xiàn)在的發(fā)展路徑,在瀏覽器上通過(guò)圖表來(lái)呈現(xiàn)資料變動(dòng)的過(guò)程。
Line資料平臺(tái)部門(mén)資深產(chǎn)品經(jīng)理宇田川直人表示,這個(gè)內(nèi)部資料目錄提供了一站式的入口,來(lái)涵蓋所有的資料活動(dòng),來(lái)提高包括搜索資料,訪問(wèn)控制,元數(shù)據(jù)管理和探索性資料分析等資料利用的效率。
不過(guò),要打造這樣的資料目錄有兩大挑戰(zhàn),一是得搜集所有資料集的元數(shù)據(jù),第二是如何呈現(xiàn)這些元數(shù)據(jù)的關(guān)聯(lián)。Line使用了開(kāi)源的目錄服務(wù)項(xiàng)目Apache Atlas來(lái)串聯(lián)各種不同資料源,搜集資料元數(shù)據(jù)來(lái)了解異動(dòng)狀況,并將資料每一次的變化過(guò)程用可視化的方式呈現(xiàn),這就是資料血統(tǒng)的機(jī)制。資料血統(tǒng)圖上的每一個(gè)節(jié)點(diǎn),可以列出這個(gè)節(jié)點(diǎn)相關(guān)的資料表簡(jiǎn)介、時(shí)間戳、表格關(guān)系、PII(涉及個(gè)人信息),資料擁有者,使用單位,還有從這份資料產(chǎn)生的相關(guān)報(bào)表、用戶清單和各種連接等。
可是,IU上有4萬(wàn)個(gè)Hive表格,每天要執(zhí)行15萬(wàn)個(gè)任務(wù),每一個(gè)任務(wù)和每一個(gè)表格都是一個(gè)人信息料血統(tǒng)圖上的節(jié)點(diǎn),要追溯出從創(chuàng)建到目前的所有變化和關(guān)聯(lián),就會(huì)產(chǎn)生非常復(fù)雜和龐大的節(jié)點(diǎn)關(guān)聯(lián)圖。
為了改善資料血統(tǒng)圖的可讀性,Line采取了多項(xiàng)設(shè)計(jì)機(jī)制來(lái)簡(jiǎn)化資料血統(tǒng)圖的復(fù)雜性。Line利用Atlas串聯(lián)了HIve服務(wù)器和Spark,利用Atlas的通知機(jī)制,采取推送更新元數(shù)據(jù)的做法。不過(guò),因?yàn)镮U上執(zhí)行的任務(wù)每天多達(dá)十幾萬(wàn)個(gè),幾分鐘內(nèi)的資料表異動(dòng)也多達(dá)數(shù)百次。因此,Line通過(guò)Kafka匯集整理來(lái)自Atlas的通知,以30分鐘為最小關(guān)注單位,排除掉30分鐘內(nèi)的異動(dòng),例如操作錯(cuò)誤的數(shù)據(jù)庫(kù)反復(fù)添加或刪指令,大幅減少了90%異動(dòng)通知。再進(jìn)一步比較異動(dòng)模式,過(guò)濾掉對(duì)用戶沒(méi)有意義的DDL語(yǔ)法異動(dòng)資訊,更大幅減少了95%的噪聲。
不只如此,Line在資料血統(tǒng)數(shù)據(jù)庫(kù)中,排除了不重要的資料節(jié)點(diǎn)的注冊(cè),這更大幅減少了9成節(jié)點(diǎn)數(shù),也刪除了3萬(wàn)個(gè)不需要的任務(wù)。通過(guò)這些一層又一層的過(guò)濾和篩選,才讓Line資料目錄IU Web上提供的資料血統(tǒng),要處理的復(fù)雜度降低,甚至可以進(jìn)一步展開(kāi)到以字段為節(jié)點(diǎn)單位的關(guān)聯(lián)分析圖。
Line更提供了一個(gè)互動(dòng)式的接口,默認(rèn)可以展開(kāi)一項(xiàng)資料從出生到現(xiàn)在的血統(tǒng)脈絡(luò)。
資料血統(tǒng)功能在2021年11月上線,統(tǒng)計(jì)到2022年5月,有79個(gè)服務(wù)和部門(mén)使用這項(xiàng)功能,每天用于ETL、資料管理和數(shù)據(jù)科學(xué)分析等功能,特別是Data ETL團(tuán)隊(duì)可以更容易確認(rèn)資料表維護(hù)的范圍,尤其要執(zhí)行資料表刪除或異動(dòng)時(shí)能更放心。更有不少用戶每天常用資料血統(tǒng)來(lái)調(diào)查各種資料錯(cuò)誤的根本原因
“可以掌握資料間的關(guān)聯(lián),就可以很容易知道如何管理龐大資料,來(lái)提高再利用效率,更可以在安全和治理的角度下,來(lái)使用這些資料。”Tomohiro Ikebe表示。不只用于IU,在MLU平臺(tái)上,也可以利用相同的血統(tǒng)技術(shù),來(lái)關(guān)注一個(gè)模型用了哪些資料來(lái)訓(xùn)練,以及在訓(xùn)練中如何使用這些資料。
IU Web的資料血統(tǒng)功能,可以呈現(xiàn)一項(xiàng)資料從出生到現(xiàn)在的資料異動(dòng)脈絡(luò)也就是資料血統(tǒng),默認(rèn)展開(kāi)三層重要的節(jié)點(diǎn),用戶可以自行放大或縮小畫(huà)面,也可以針對(duì)任何一個(gè)人信息料字段,再進(jìn)一步展開(kāi)下三層的資料血統(tǒng)關(guān)聯(lián)圖。圖片來(lái)源/Line
Line機(jī)器學(xué)習(xí)平臺(tái)MLU引進(jìn)聯(lián)合學(xué)習(xí)新架構(gòu)
不只IU資料平臺(tái)展開(kāi)大變革,Line的機(jī)器學(xué)習(xí)平臺(tái)MLU也采用了全新的訓(xùn)練架構(gòu)和模式。Tomohiro Ikebe表示,今年秋天,Line在貼圖推薦導(dǎo)入了一套新的機(jī)器學(xué)習(xí)訓(xùn)練架構(gòu),“可以處理爆量特征來(lái)創(chuàng)建模型,又能兼顧隱私和用戶便利性,就是聯(lián)合學(xué)習(xí)(Federated Learning)和差分隱私(Differential Privacy)。”
通過(guò)聯(lián)合學(xué)習(xí)機(jī)制,在用戶本地端App上完成模型訓(xùn)練,并利用差分隱私(Differential Privacy)架構(gòu),將模型加上噪聲來(lái)避免從模型回推原始資料,再將沒(méi)有用戶資料的特征模型,回傳到后端服務(wù)器來(lái)更新整體推薦模型,再分派新模型到用戶App上,利用本地端Log來(lái)產(chǎn)生更個(gè)性化的推薦順序。
雅虎日本首席技術(shù)官小久保雅彥指出,兩家公司共同累計(jì)了龐大用戶和爆量數(shù)據(jù),而且只會(huì)加速增加。為了持續(xù)增長(zhǎng),必須解決多項(xiàng)技術(shù)挑戰(zhàn),像是得打造一套靈活平臺(tái),回應(yīng)快速暴增的流量和資料。也得擴(kuò)大甚至加速導(dǎo)入先進(jìn)AI技術(shù)。還要打造安全和隱私保護(hù)的可靠性架構(gòu)來(lái)創(chuàng)建信任。
這三大挑戰(zhàn),也正是Line資料平臺(tái)和AI架構(gòu)新變革要解決的課題。