大模型正在重塑產(chǎn)業(yè)。
但想要真正擁抱大模型,仍然面臨很多現(xiàn)實(shí)問題:
·如何高效率、低成本地處理數(shù)據(jù)?
·模型數(shù)據(jù)如何動(dòng)態(tài)更新?
·私有數(shù)據(jù)如何安全地接入大模型?
想要解決這些問題,我們需要在數(shù)據(jù)和大模型之間搭建一座橋梁。
過往,承擔(dān)數(shù)據(jù)組織的是傳統(tǒng)關(guān)系型數(shù)據(jù)庫。但它更適合用來應(yīng)對結(jié)構(gòu)化的數(shù)據(jù)。
大模型和神經(jīng)網(wǎng)絡(luò),更多面對的是海量的非結(jié)構(gòu)化數(shù)據(jù),比如文本、音頻、視頻、關(guān)系等。
它們有一種專門的處理方式:“向量化”:
想要按這種”腦回路“組織數(shù)據(jù),需要一個(gè)專門的數(shù)據(jù)庫——向量數(shù)據(jù)庫。
把復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)通過向量化(embedding),處理統(tǒng)一成多維空間里的坐標(biāo)值,通過計(jì)算向量之間的相似度或距離,快速定位最相關(guān)的近似值。
它被廣泛地用于大模型訓(xùn)練、推理和知識庫補(bǔ)充等場景:
·支撐訓(xùn)練階段海量數(shù)據(jù)的分類、去重和清洗,給大模型的訓(xùn)練降本增效;
·通過新數(shù)據(jù)的帶入,幫助大模型提升處理新問題的能力,突破預(yù)訓(xùn)練帶來的知識時(shí)間限制,避免大模型出現(xiàn)幻覺;
·提供一種私有數(shù)據(jù)連接大模型的方式,解決私有數(shù)據(jù)注入大模型帶來的安全和隱私問題,加速大模型在產(chǎn)業(yè)落地;
……
簡而言之,如果大模型是一個(gè)智能的處理器,那向量數(shù)據(jù)庫就是配合這臺處理器的”外置緩存"。
今天,我們正式發(fā)布國內(nèi)首個(gè)AI原生(AI Native)的向量數(shù)據(jù)庫:
騰訊云向量數(shù)據(jù)庫
Tencent Cloud VectorDB
它最高支持業(yè)界領(lǐng)先的10億級向量檢索規(guī)模,并將延遲控制在毫秒級。相比傳統(tǒng)單機(jī)插件式數(shù)據(jù)庫檢索規(guī)模提升10倍,同時(shí)具備百萬級每秒查詢(QPS)的峰值能力。
針對大模型場景,它在接入層、計(jì)算層、存儲層實(shí)現(xiàn)了全面AI化:
·在接入層,智能化支持自然語言文本的直接檢索;
·在計(jì)算層,通過AI算子替代企業(yè)尋找/調(diào)優(yōu)AI算法,將接入工期從一個(gè)月縮短到3天;
·在存儲層,融合智能壓縮算法,把向量存儲成本降低50%。
統(tǒng)計(jì)顯示,將騰訊云向量數(shù)據(jù)庫用于大模型預(yù)訓(xùn)練數(shù)據(jù)的分類、去重和清洗,相比傳統(tǒng)方式可以實(shí)現(xiàn)10倍效率的提升。
如果將向量數(shù)據(jù)庫作為外部知識庫用于模型推理,則可以將成本降低2~4個(gè)數(shù)量級。
其實(shí),騰訊云向量數(shù)據(jù)庫經(jīng)歷了鵝廠內(nèi)部業(yè)務(wù)的長期錘煉:
·覆蓋騰訊視頻、QQ瀏覽器、QQ音樂等上百個(gè)業(yè)務(wù)場景,每日調(diào)用量超千億次;
·支撐QQ音樂人均聽歌時(shí)長提升3.2%,QQ瀏覽器成本降低37.9%,騰訊視頻有效曝光人均時(shí)長提升1.74%;
·向量化能力(embedding)多次獲得權(quán)威機(jī)構(gòu)認(rèn)可,曾登頂MS MARCO榜單第一。
展望未來,“向量數(shù)據(jù)庫+大模型+數(shù)據(jù)”將產(chǎn)生“飛輪效應(yīng)”,共同助力企業(yè)步入AI Native(AI原生)時(shí)代。
我們也將繼續(xù)打磨技術(shù)能力,提供更堅(jiān)實(shí)的AI基礎(chǔ)設(shè)施。