在空中3000米處,一架民用飛機(jī)拖著煙翼,在空中畫(huà)出兩條黑線。不遠(yuǎn)處,有13名乘客從機(jī)艙中喪生。
此刻,在不遠(yuǎn)的地方,鐵甲的智能助手老賈通過(guò)大數(shù)據(jù)算法提出了數(shù)百種解決方案,并一一淘汰。
突然,裝甲開(kāi)始剎車(chē),一個(gè)人開(kāi)始在空中飛舞。眨眼間,所有13名乘客都被救出,整個(gè)過(guò)程僅30秒。
在《鋼鐵俠3》中,空難救援場(chǎng)景很經(jīng)典。鋼鐵人通過(guò)授權(quán)AI,使用大數(shù)據(jù),云計(jì)算和其他技術(shù),可以在1/30秒內(nèi)做出準(zhǔn)確的決策。
電影中顯示的極端情況引起了我們對(duì)這種技術(shù)的好奇。在現(xiàn)實(shí)生活中,大數(shù)據(jù),云計(jì)算和其他技術(shù)的迭代,集成和著陸會(huì)影響上層應(yīng)用程序的各個(gè)方面(企業(yè)方面)。
從入門(mén)到自我研究再到開(kāi)源集成,過(guò)去十年來(lái)騰訊的大數(shù)據(jù)平臺(tái)經(jīng)歷了什么
10月6日,雷鋒受邀參加了騰訊舉辦的技術(shù)開(kāi)發(fā)者大會(huì)。在此期間,騰訊云副總裁,騰訊數(shù)據(jù)平臺(tái)總經(jīng)理蔣潔分享了騰訊大數(shù)據(jù)平臺(tái)的發(fā)展歷程,騰訊大數(shù)據(jù)平臺(tái)的發(fā)展方向以及人工智能與云技術(shù)的融合。
每日數(shù)據(jù)計(jì)算量超過(guò)30萬(wàn)億
騰訊業(yè)務(wù)部門(mén)資源與大數(shù)據(jù)平臺(tái)機(jī)器資源的結(jié)合形成了大數(shù)據(jù)全平臺(tái)計(jì)算能力。
蔣潔透露,到目前為止,計(jì)算能力資源池已達(dá)到20萬(wàn)多個(gè)單位,每天計(jì)算的實(shí)時(shí)數(shù)據(jù)超過(guò)30萬(wàn)億條。但是,一天之內(nèi)沒(méi)有取得這樣的成就。在過(guò)去的十年中,騰訊的大數(shù)據(jù)平臺(tái)經(jīng)歷了三個(gè)階段:
1.離線計(jì)算
2009年1月,騰訊建立了首個(gè)Hadoop集群并開(kāi)始擴(kuò)展數(shù)據(jù)。
這是Apache基金會(huì)開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)結(jié)構(gòu),它實(shí)現(xiàn)了分布式文件系統(tǒng)(HDFS)。
HDFS具有較高的容錯(cuò)能力,適合在低成本硬件上部署;它提供高吞吐量以訪問(wèn)應(yīng)用程序數(shù)據(jù),適用于具有大數(shù)據(jù)集的應(yīng)用程序。
HDFS為海量數(shù)據(jù)提供存儲(chǔ),而MapReduce為海量數(shù)據(jù)提供計(jì)算能力。
2.實(shí)時(shí)計(jì)算
2012年,隨著移動(dòng)互聯(lián)網(wǎng)的爆發(fā),騰訊的大數(shù)據(jù)平臺(tái)進(jìn)入了第二階段,從Hadoop到風(fēng)靡一時(shí)的暴風(fēng)雨。
該平臺(tái)在吸收開(kāi)源技術(shù)的基礎(chǔ)上,根據(jù)業(yè)務(wù)需求進(jìn)行了重寫(xiě)。在此期間,騰訊開(kāi)始探索流計(jì)算,二級(jí)采集系統(tǒng)的構(gòu)建,并構(gòu)建企業(yè)級(jí)實(shí)時(shí)數(shù)據(jù)分析系統(tǒng)。
大數(shù)據(jù)平臺(tái)的在線分析和實(shí)時(shí)計(jì)算功能被廣泛應(yīng)用于實(shí)時(shí)報(bào)告,實(shí)時(shí)查詢(xún)和實(shí)時(shí)監(jiān)控等場(chǎng)景。
3.機(jī)器計(jì)算
自2015年以來(lái),為了滿足業(yè)務(wù)數(shù)據(jù)挖掘的需求,機(jī)器學(xué)習(xí)平臺(tái)的主體建設(shè)已經(jīng)開(kāi)始。從數(shù)據(jù)分析到數(shù)據(jù)挖掘的轉(zhuǎn)變是大數(shù)據(jù)平臺(tái)“智能”的體現(xiàn)。
2016年,騰訊自主研發(fā)的機(jī)器學(xué)習(xí)平臺(tái)Angel專(zhuān)注于復(fù)雜的計(jì)算場(chǎng)景,可以進(jìn)行大規(guī)模的數(shù)據(jù)培訓(xùn),支持內(nèi)容推薦,廣告推薦等AI應(yīng)用場(chǎng)景。
姜潔表示,騰訊大數(shù)據(jù)平臺(tái)的開(kāi)發(fā)是一個(gè)從引入到自學(xué),從離線到實(shí)時(shí),從分析,計(jì)算再到人工智能的全方位演進(jìn)過(guò)程。借助正式的開(kāi)源資源管理平臺(tái)核心tke和分布式數(shù)據(jù)庫(kù)tbase,與開(kāi)發(fā)和計(jì)算平臺(tái)TDW,全棧機(jī)器學(xué)習(xí)平臺(tái)angel和開(kāi)源實(shí)時(shí)數(shù)據(jù)采集平臺(tái)tubemq一起形成了騰訊大數(shù)據(jù)開(kāi)源陣營(yíng)。事實(shí)證明,騰訊大數(shù)據(jù)平臺(tái)具有自主研發(fā)能力,已積極推廣開(kāi)源并回饋行業(yè)。
大數(shù)據(jù)平臺(tái)的新方向:融合在談到發(fā)展方向時(shí),蔣潔強(qiáng)調(diào)了“整合”這個(gè)詞。他認(rèn)為,騰訊大數(shù)據(jù)平臺(tái)正在朝著以下三個(gè)特征進(jìn)行迭代:
1.批量流集成,從批量計(jì)算和實(shí)時(shí)計(jì)算分離到SQL級(jí)別的集成,再到底層計(jì)算引擎級(jí)別和存儲(chǔ)級(jí)別的多方面技術(shù)集成;
2.ABC融合,人工智能,大數(shù)據(jù)和云的集成應(yīng)該綁定在一起。騰訊開(kāi)發(fā)的機(jī)器學(xué)習(xí)平臺(tái)Angel就是一個(gè)整合案例。Angel已經(jīng)實(shí)現(xiàn)了從預(yù)處理到數(shù)據(jù)培訓(xùn)的集成。當(dāng)整個(gè)系統(tǒng)可以遷移到云中時(shí),將實(shí)現(xiàn)ABC的真正集成;
3。Data Lake實(shí)現(xiàn)了跨IDC,跨平臺(tái)和跨異構(gòu)數(shù)據(jù)源的數(shù)據(jù)共享,并通過(guò)聯(lián)合學(xué)習(xí)解決了數(shù)據(jù)共享中的數(shù)據(jù)安全性和隱私性問(wèn)題。
技術(shù)的發(fā)展并非總是一帆風(fēng)順。蔣潔說(shuō),在大數(shù)據(jù)平臺(tái)開(kāi)發(fā)階段,漏洞還很多。
在資源調(diào)度領(lǐng)域,本地Hadoop的承載規(guī)模很小,這意味著需要自行開(kāi)發(fā)的調(diào)度程序。通過(guò)自行開(kāi)發(fā)的調(diào)度程序,騰訊在2014年使Hadoop單個(gè)集群的規(guī)模達(dá)到8800,現(xiàn)在已經(jīng)超過(guò)40000。在解決了離線規(guī)模問(wèn)題之后,騰訊的大數(shù)據(jù)團(tuán)隊(duì)再次面臨著在線資源問(wèn)題。他們需要實(shí)現(xiàn)在線和離線平臺(tái)的混合部署。此過(guò)程需要更好的資源隔離,并且容器需要具有與虛擬機(jī)相同的隔離功能。同時(shí),應(yīng)該獲得在線服務(wù)的優(yōu)先級(jí)調(diào)度能力,以提高在線資源比例。
器學(xué)習(xí)平臺(tái)來(lái)解決該問(wèn)題。從一開(kāi)始,天使就支持10億個(gè)維度,并逐漸增加到1000億個(gè)。目前,天使平臺(tái)的培訓(xùn)規(guī)模已從1000億擴(kuò)大到1萬(wàn)億。
在過(guò)去的十年中,只有騰訊的大數(shù)據(jù)團(tuán)隊(duì)知道漏洞的嚴(yán)重程度。同時(shí),它們自2014年以來(lái)一直是開(kāi)源的,希望為類(lèi)似的制造商和開(kāi)發(fā)商提供可行的解決方案。
不要踩到你踩的洞
蔣潔表示,騰訊大數(shù)據(jù)平臺(tái)的基礎(chǔ)技術(shù)來(lái)自開(kāi)源。通過(guò)開(kāi)發(fā),迭代和開(kāi)源回饋社區(qū)是最好的選擇。
目前,騰訊云已經(jīng)具備了對(duì)外開(kāi)放的能力,包括存儲(chǔ)網(wǎng)絡(luò),數(shù)據(jù)庫(kù),整個(gè)大數(shù)據(jù)平臺(tái),機(jī)器學(xué)習(xí)平臺(tái)以及為SAAS和語(yǔ)音NLP服務(wù)的上層系統(tǒng)。通過(guò)云上的產(chǎn)品,企業(yè)無(wú)需專(zhuān)業(yè)的大數(shù)據(jù)和AI人才即可分析大數(shù)據(jù)。
雷鋒了解到,2014年,騰訊的第一代開(kāi)發(fā)和計(jì)算平臺(tái)TDW是開(kāi)源的。到2017年,第三代計(jì)算平臺(tái)angel也已經(jīng)開(kāi)源,并且該平臺(tái)已捐贈(zèng)給Linux基金會(huì)。到今年9月,騰訊開(kāi)放了實(shí)時(shí)數(shù)據(jù)采集平臺(tái)tubemq的源代碼,并將其捐贈(zèng)給Apache基金會(huì)。
會(huì)議當(dāng)天,姜潔宣布資源管理容器平臺(tái)tke和分布式數(shù)據(jù)庫(kù)tbase是開(kāi)源的。隨著大數(shù)據(jù)領(lǐng)域開(kāi)源的逐步加速,騰訊正在成為中國(guó)大數(shù)據(jù)領(lǐng)域最全面的開(kāi)源制造商之一。