近日,2021云棲大會開源大數(shù)據(jù)與AI行業(yè)實(shí)踐論壇上,阿里巴巴開源委員會副主席、阿里云開源大數(shù)據(jù)平臺負(fù)責(zé)人王峰首次公開阿里云開源大數(shù)據(jù)技術(shù)的十年演進(jìn)之路。同時(shí),經(jīng)歷阿里巴巴自身業(yè)務(wù)千錘百煉的兩款A(yù)I“神兵”宣布開源——大規(guī)模稀疏模型訓(xùn)練引擎DeepRec和多模態(tài)向量檢索引擎Proxima,幫助搜索、廣告等AI業(yè)務(wù)大幅提效。
開源大數(shù)據(jù):進(jìn)擊的十年演進(jìn)之路
王峰介紹了阿里云開源大數(shù)據(jù)平臺在過去十年間的技術(shù)演進(jìn)歷程,并分享了數(shù)據(jù)湖、實(shí)時(shí)化、云原生、智能化等技術(shù)趨勢。阿里巴巴一直堅(jiān)持自研和開源雙軌制平行發(fā)展模式,在自研的基礎(chǔ)上積極擁抱開源生態(tài)。早在2009年,基于 Apache Hadoop 構(gòu)建第一代大數(shù)據(jù)平臺-云梯,并從 2016 年開始大力推動 Apache Flink 社區(qū)的發(fā)展,激發(fā)社區(qū)生態(tài)的繁榮和多元化。至2020年,F(xiàn)link已連續(xù)三年在用戶和開發(fā)者郵件列表活躍度蟬聯(lián)第一。
隨著開源技術(shù)與云原生的高度融合,阿里云開源大數(shù)據(jù)平臺在功能性、易用性、安全性上積累了豐富的實(shí)踐經(jīng)驗(yàn),幫助萬千企業(yè)聚焦自身核心業(yè)務(wù)優(yōu)勢,縮短大數(shù)據(jù)開發(fā)周期、簡化運(yùn)維難度,更輕松的投入到業(yè)務(wù)創(chuàng)新。
重磅開源:DeepRec和Proxima
基于業(yè)界常見的開源深度學(xué)習(xí)框架Tensorflow、PyTorch,針對稀疏模型仍具有局限性的問題,阿里巴巴高級技術(shù)專家劉童璇在會上宣布大規(guī)模稀疏模型訓(xùn)練引擎DeepRec即將開源。DeepRec針對稀疏模型在分布式、圖優(yōu)化、算子、Runtime等方面進(jìn)行了深度的性能優(yōu)化,同時(shí)提供了動態(tài)彈性特征、動態(tài)彈性維度、自適應(yīng)彈性特征、多Hash彈性特征等在阿里集團(tuán)內(nèi)搜推廣業(yè)務(wù)中沉淀的稀疏功能。高效助力技術(shù)升級,提升模型效果和模型迭代效率,大幅提高搜索、推薦、廣告場景的訓(xùn)練速度,縮短模型迭代周期。
阿里巴巴達(dá)摩院資深技術(shù)專家肖允鋒帶來多模態(tài)向量檢索引擎Proxima的正式開源。Proxima是阿里巴巴達(dá)摩院自研的向量檢索內(nèi)核,可實(shí)現(xiàn)對語音、圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù)的檢索,廣泛應(yīng)用于阿里巴巴和螞蟻集團(tuán)內(nèi)的眾多業(yè)務(wù),如淘寶搜索、優(yōu)酷視頻搜索、阿里媽媽廣告檢索等。同時(shí),還深度集成在各類大數(shù)據(jù)和數(shù)據(jù)庫產(chǎn)品中,為其提供向量檢索的能力。開源項(xiàng)目地址:
堅(jiān)定擁抱開源,共建社區(qū)繁榮
在堅(jiān)定擁抱開源的道路上,阿里巴巴一直強(qiáng)調(diào)希望能為開源社區(qū)作出更多貢獻(xiàn),帶動社區(qū)繁榮發(fā)展,并實(shí)現(xiàn)社區(qū)多元化,讓開源技術(shù)能普惠更多行業(yè)和場景。在此期間,阿里巴巴組織了上萬人群參與Flink等開源技術(shù)討論、聯(lián)合舉辦超過百場社區(qū)活動、引入國際盛會Flink Forward等。
目前,阿里巴巴已經(jīng)成為 Apache Flink 社區(qū)全球最大的貢獻(xiàn)者和推動者,阿里云開源大數(shù)據(jù)團(tuán)隊(duì)也培養(yǎng)出30名以上Apache 頂級項(xiàng)目 Committer 、 PMC Member 和多名 ASF Member,參與了十多個(gè)Apache Top Level Project的建設(shè)。阿里云也與Spark、Elasticsearch等開源社區(qū)展開了深入的合作。