“十問(wèn)”向量數(shù)據(jù)庫(kù)

來(lái)源:騰訊云數(shù)據(jù)庫(kù)
作者:騰訊云數(shù)據(jù)庫(kù)
時(shí)間:2023-07-05
2894
向量數(shù)據(jù)庫(kù)因?yàn)锳I大模型最近很火。向量數(shù)據(jù)庫(kù)是一種專門(mén)用于存儲(chǔ)、管理、查詢、檢索向量的數(shù)據(jù)庫(kù),主要應(yīng)用于人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等領(lǐng)域。向量是一組數(shù)值,可以表示一個(gè)點(diǎn)在多維空間中的位置。

1、能否用最通俗的語(yǔ)言介紹下什么是向量,什么是向量數(shù)據(jù)庫(kù),它和傳統(tǒng)數(shù)據(jù)庫(kù)有什么區(qū)別?

向量數(shù)據(jù)庫(kù)因?yàn)锳I大模型最近很火。向量數(shù)據(jù)庫(kù)是一種專門(mén)用于存儲(chǔ)、管理、查詢、檢索向量的數(shù)據(jù)庫(kù),主要應(yīng)用于人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等領(lǐng)域。向量是一組數(shù)值,可以表示一個(gè)點(diǎn)在多維空間中的位置。

簡(jiǎn)單理解就是在AI的世界中,處理的所有數(shù)據(jù)都是向量的形式,比如“我愛(ài)吃荔枝”,在大模型處理的過(guò)程中,計(jì)算機(jī)會(huì)轉(zhuǎn)化為向量的形式:

我:【0.1,0.3,-0.2,...,-0.1】

喜歡:【-0.3,0.5,0.2,...,0.4】

吃:【0.4,-0.1,0.2,...,-0.3】

荔枝:【-0.4,0.3,0.2,...,0.3】。

相對(duì)傳統(tǒng)數(shù)據(jù)庫(kù),向量數(shù)據(jù)庫(kù)不僅能夠完成基本的CRUD(添加、讀取查詢、更新、刪除),標(biāo)量數(shù)據(jù)過(guò)濾、范圍查詢等操作,還能夠?qū)ο蛄繑?shù)據(jù)進(jìn)行更快速的相似性搜索。

2、向量數(shù)據(jù)庫(kù)和大模型什么關(guān)系?為什么說(shuō)向量數(shù)據(jù)庫(kù)是大模型的黃金搭檔?

向量數(shù)據(jù)庫(kù)通常被認(rèn)為是大模型的“海馬體”或者“記憶海綿”。目前的大模型都是預(yù)訓(xùn)練模型,對(duì)于訓(xùn)練截止日之后發(fā)生的事情一無(wú)所知。第一是沒(méi)有實(shí)時(shí)的數(shù)據(jù),第二是缺乏私域數(shù)據(jù)或者企業(yè)數(shù)據(jù),向量數(shù)據(jù)庫(kù)可以通過(guò)存儲(chǔ)最新信息或者企業(yè)數(shù)據(jù)有效彌補(bǔ)了這些不足,讓大模型突破在時(shí)間和空間上的限制,加速大模型落地行業(yè)場(chǎng)景。同時(shí),通過(guò)向量數(shù)據(jù)的本地存儲(chǔ),還能夠協(xié)助解決目前企業(yè)界最擔(dān)憂的大模型泄露隱私的問(wèn)題。

3、向量數(shù)據(jù)庫(kù)背后有哪些核心技術(shù)?打造一款向量數(shù)據(jù)庫(kù)主要的門(mén)檻是什么?

要打造一款高效的向量數(shù)據(jù)庫(kù),背后涉及眾多的底層技術(shù),其中主要包括:

向量索引技術(shù):向量索引是向量數(shù)據(jù)庫(kù)的核心技術(shù)之一,它通過(guò)構(gòu)建高效的索引結(jié)構(gòu)來(lái)實(shí)現(xiàn)快速的向量檢索。常見(jiàn)的向量索引包括FLAT、HNSW、IVF等。

向量相似度計(jì)算技術(shù):向量相似度計(jì)算是向量數(shù)據(jù)庫(kù)的另一個(gè)核心技術(shù),它用于度量向量之間的相似度。常見(jiàn)的向量相似度計(jì)算方法包括余弦相似度、歐幾里得距離等。

Embedding技術(shù):利用Embedding技術(shù)將高維度的數(shù)據(jù)(例如文字、圖片、音頻)映射到低維度空間,即把圖片、音頻和文字轉(zhuǎn)化為向量來(lái)表示,將這些向量存儲(chǔ)起來(lái)就構(gòu)成向量數(shù)據(jù)庫(kù)。

4、向量數(shù)據(jù)庫(kù)在LLM中有什么用?目前有哪些典型的落地?

向量數(shù)據(jù)庫(kù)可以用于存儲(chǔ)和管理大規(guī)模的文本向量數(shù)據(jù),原始的長(zhǎng)文本內(nèi)容可以通過(guò)文本分割轉(zhuǎn)換成文本段,再由Embedding模型生成對(duì)應(yīng)的向量并存儲(chǔ)在向量數(shù)據(jù)庫(kù)中,從而構(gòu)建起外部知識(shí)庫(kù)。

在使用LLM進(jìn)行訓(xùn)練或預(yù)測(cè)時(shí),可以從向量數(shù)據(jù)庫(kù)中快速地加載和查詢需要的文本向量數(shù),這些數(shù)據(jù)可以作為大模型的外部知識(shí)輸入,幫助大模型生成更加準(zhǔn)確、包含更多私域知識(shí)的答案。同時(shí),向量數(shù)據(jù)庫(kù)還可以使用一些特殊的算法和數(shù)據(jù)結(jié)構(gòu),例如向量索引和相似度計(jì)算等,來(lái)提高LLM的查詢精度和效率。目前,向量數(shù)據(jù)庫(kù)已經(jīng)在很多知名的大模型中應(yīng)用。

5、目前國(guó)內(nèi)外向量數(shù)據(jù)庫(kù)市場(chǎng)的情況是怎樣的?

據(jù)第三方調(diào)研數(shù)據(jù)預(yù)測(cè),全球向量數(shù)據(jù)庫(kù)到2030年預(yù)計(jì)將迎來(lái)超過(guò)500億美元的市場(chǎng)。國(guó)內(nèi)也將以每年超過(guò)20%的速度在增長(zhǎng)。目前全球已有的向量數(shù)據(jù)庫(kù)產(chǎn)品主要包括Pinecone、Milvus、Weaviate、Vespa、Tencent Cloud VectorDB等。其中,超過(guò)一半的向量數(shù)據(jù)庫(kù)具有云化部署的能力。

6、騰訊發(fā)布的向量數(shù)據(jù)庫(kù)有哪些核心能力?

騰訊云剛剛發(fā)布的向量數(shù)據(jù)庫(kù)Tencent Cloud VectorDB主要具備以下能力:

高性能向量存儲(chǔ)、檢索:騰訊云向量數(shù)據(jù)庫(kù)具備高性能的向量存儲(chǔ)和檢索能力,單索引能夠輕松支持10億級(jí)別的向量規(guī)模。在分布式彈性擴(kuò)展的架構(gòu)下,單實(shí)例可支持百萬(wàn)級(jí)別QPS,AI場(chǎng)景下向量檢索的P99響應(yīng)延遲可控制在20ms以內(nèi),能夠覆蓋絕大多數(shù)AI場(chǎng)景對(duì)向量存儲(chǔ)和檢索的業(yè)務(wù)需求。

可視化數(shù)據(jù)管理:在向量存儲(chǔ)、檢索能力之上,騰訊云向量數(shù)據(jù)庫(kù)還提供了可視化的數(shù)據(jù)管理界面,進(jìn)一步降低向量數(shù)據(jù)庫(kù)的接入和使用門(mén)檻。用戶可以通過(guò)控制臺(tái)進(jìn)行數(shù)據(jù)庫(kù)、集合層面的數(shù)據(jù)管理,還可以快速執(zhí)行向量檢索等常用操作。此外,騰訊云向量數(shù)據(jù)庫(kù)還提供了可視化的數(shù)據(jù)上傳能力,幫助用戶快速構(gòu)建專屬知識(shí)庫(kù)。

一站式向量檢索方案:為了進(jìn)一步提升產(chǎn)品的易用性,騰訊云向量數(shù)據(jù)庫(kù)會(huì)提供一站式的向量檢索方案,實(shí)現(xiàn)從文本輸入到文本搜索的端到端檢索能力,用戶可以直接上傳.pdf、.txt等原始文本文件,通過(guò)平臺(tái)自動(dòng)化地執(zhí)行文本分割、embedding向量化,全托管地完成知識(shí)構(gòu)建和檢索任務(wù)。

7、騰訊云發(fā)布的向量數(shù)據(jù)庫(kù)有什么特點(diǎn)?技術(shù)架構(gòu)是什么樣的?

Tencent Cloud VectorDB從性能上看,具備高性能、高可用、低成本等優(yōu)勢(shì),比如單索引支持10億級(jí)向量規(guī)模,最快支持毫秒級(jí)數(shù)據(jù)實(shí)時(shí)更新,適用于AI運(yùn)算、檢索,數(shù)據(jù)接入AI的效率比傳統(tǒng)方案提升10倍。

同時(shí),提供多副本高可用特性,提高容災(zāi)能力,確保數(shù)據(jù)庫(kù)在面臨節(jié)點(diǎn)故障和負(fù)載變化等挑戰(zhàn)時(shí)仍能正常運(yùn)行。架構(gòu)層面支持水平擴(kuò)展,單實(shí)例可支持百億級(jí)向量數(shù)據(jù)規(guī)模,輕松滿足AI場(chǎng)景下的向量存儲(chǔ)與檢索需求。目前已經(jīng)在騰訊內(nèi)部近40個(gè)業(yè)務(wù)線上穩(wěn)定運(yùn)行,日均處理的搜索請(qǐng)求高達(dá)千億次。

對(duì)于企業(yè)開(kāi)發(fā)者來(lái)說(shuō),只需在管理控制臺(tái)中單擊幾下,即可快速創(chuàng)建向量數(shù)據(jù)庫(kù)實(shí)例,全流程平臺(tái)托管,無(wú)需進(jìn)行任何安裝、部署、運(yùn)維操作,減少機(jī)器成本、運(yùn)維成本、人力成本開(kāi)銷。

此外,VectorDB支持豐富的向量檢索能力,用戶通過(guò)RESTful API即可快速操作數(shù)據(jù)庫(kù),開(kāi)發(fā)效率高。同時(shí)控制臺(tái)提供了完善的數(shù)據(jù)管理和監(jiān)控能力,操作簡(jiǎn)單便捷。

技術(shù)架構(gòu)上,騰訊云向量數(shù)據(jù)庫(kù)基于騰訊集團(tuán)每日處理千億次檢索的向量引擎OLAMA,底層采用Raft分布式存儲(chǔ),通過(guò)Master節(jié)點(diǎn)進(jìn)行集群管理和調(diào)度,實(shí)現(xiàn)系統(tǒng)的高效運(yùn)行。同時(shí),騰訊云向量數(shù)據(jù)庫(kù)支持設(shè)置多分片和多副本,進(jìn)一步提升了負(fù)載均衡能力,使得向量數(shù)據(jù)庫(kù)能夠在處理海量向量數(shù)據(jù)的同時(shí),實(shí)現(xiàn)高性能、高可擴(kuò)展性和高容災(zāi)能力。

640.jpg

8、騰訊內(nèi)部有哪些業(yè)務(wù)已經(jīng)在使用向量數(shù)據(jù)庫(kù)?效果怎么樣?

騰訊云向量數(shù)據(jù)庫(kù)基于騰訊集團(tuán)每日處理千億次檢索的向量引擎(OLAMA),經(jīng)過(guò)騰訊內(nèi)部海量場(chǎng)景的實(shí)踐,數(shù)據(jù)接入AI的效率比傳統(tǒng)方案提升10倍,運(yùn)行穩(wěn)定性高達(dá)99.99%,目前已經(jīng)應(yīng)用在了騰訊視頻、QQ瀏覽器、QQ音樂(lè)等30多款產(chǎn)品中。

騰訊云向量數(shù)據(jù)庫(kù)能有效助力產(chǎn)品提升運(yùn)營(yíng)效率。數(shù)據(jù)顯示,使用騰訊云向量數(shù)據(jù)庫(kù)后,QQ音樂(lè)人均聽(tīng)歌時(shí)長(zhǎng)提升3.2%、騰訊視頻有效曝光人均時(shí)長(zhǎng)提升1.74%、QQ瀏覽器成本降低37.9%。

以騰訊視頻的應(yīng)用為例,視頻庫(kù)中的圖片、音頻、標(biāo)題文本等內(nèi)容使用騰訊云向量數(shù)據(jù)庫(kù),月均完成的檢索和計(jì)算量高達(dá)200億次,有效滿足了版權(quán)保護(hù)、原創(chuàng)識(shí)別、相似性檢索等場(chǎng)景需求。

9、如何理解騰訊云向量數(shù)據(jù)庫(kù)的AI Native開(kāi)發(fā)范式?

騰訊云向量數(shù)據(jù)庫(kù)提供了接入層、計(jì)算層、存儲(chǔ)層的全面AI化解決方案,使用戶在使用向量數(shù)據(jù)庫(kù)的全生命周期,都能應(yīng)用到AI能力。

在接入層,騰訊云向量數(shù)據(jù)庫(kù)支持自然語(yǔ)言文本的輸入,同時(shí)采用“標(biāo)量+向量”的查詢方式,支持全內(nèi)存索引,最高支持每秒百萬(wàn)的查詢量(QPS);在計(jì)算層,AI Native開(kāi)發(fā)范式能實(shí)現(xiàn)全量數(shù)據(jù)AI計(jì)算,一站式解決企業(yè)在搭建私域知識(shí)庫(kù)時(shí)的文本切分(segment)、向量化(embedding)等難題;在存儲(chǔ)層,騰訊云向量數(shù)據(jù)庫(kù)支持?jǐn)?shù)據(jù)智能存儲(chǔ)分布,助力企業(yè)存儲(chǔ)成本降低50%。

640.png

10、你認(rèn)為向量數(shù)據(jù)庫(kù)賽道未來(lái)競(jìng)爭(zhēng)的核心是什么?

性能上會(huì)持續(xù)突破,包括能處理百億甚至千億條數(shù)據(jù)量;毫秒級(jí)的響應(yīng)時(shí)間和數(shù)百萬(wàn)的QPS;更低的成本,在相同資源消耗的情況下提供更強(qiáng)大的性能。此外,在應(yīng)用場(chǎng)景方面,向量數(shù)據(jù)庫(kù)在推薦系統(tǒng)、搜索引擎、圖像識(shí)別等領(lǐng)域都有著廣泛的應(yīng)用。未來(lái)隨著新的應(yīng)用場(chǎng)景的出現(xiàn),向量數(shù)據(jù)庫(kù)需要適應(yīng)不同的應(yīng)用場(chǎng)景,提供更加靈活和多樣化的解決方案,從而滿足不同用戶的需求。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來(lái)源:騰訊云數(shù)據(jù)庫(kù)
版權(quán)說(shuō)明:本文內(nèi)容來(lái)自于騰訊云數(shù)據(jù)庫(kù),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
騰訊云數(shù)據(jù)庫(kù)PostgreSQL全面支持PG 17
騰訊云數(shù)據(jù)庫(kù)PostgreSQL全面支持PG 17
即日起,騰訊云PostgreSQL全面支持PostgreSQL 17.0。所有用戶可使用大版本升級(jí)能力升級(jí)至最新的PostgreSQL 17.0進(jìn)行體驗(yàn),也可以在產(chǎn)品購(gòu)買(mǎi)頁(yè)直接購(gòu)買(mǎi)。
騰訊云
云服務(wù)
2024-12-15
高可用這個(gè)問(wèn)題,加機(jī)器就能解決?
高可用這個(gè)問(wèn)題,加機(jī)器就能解決?
互聯(lián)網(wǎng)服務(wù)的可用性問(wèn)題是困擾企業(yè)IT人員的達(dá)摩克利斯之劍:防于未然,體現(xiàn)不出價(jià)值。已然發(fā)生,又面臨P0危機(jī)。就更別提穩(wěn)定性建設(shè)背后顯性的IT預(yù)算問(wèn)題與隱性的人員成本問(wèn)題。
騰訊云
云服務(wù)
2024-11-25
TDSQL TDStore引擎版替換HBase:在歷史庫(kù)場(chǎng)景中的成本與性能優(yōu)勢(shì)
TDSQL TDStore引擎版替換HBase:在歷史庫(kù)場(chǎng)景中的成本與性能優(yōu)勢(shì)
HBase憑借其高可用性、高擴(kuò)展性和強(qiáng)一致性,以及在廉價(jià)PC服務(wù)器上的低部署成本,廣泛應(yīng)用于大規(guī)模數(shù)據(jù)分析。
騰訊云
云服務(wù)
2024-11-04
復(fù)雜查詢性能弱,只讀分析引擎來(lái)幫忙
復(fù)雜查詢性能弱,只讀分析引擎來(lái)幫忙
隨著當(dāng)今業(yè)務(wù)的高速發(fā)展,復(fù)雜多表關(guān)聯(lián)的場(chǎng)景越來(lái)越普遍。但基于行式存儲(chǔ)的數(shù)據(jù)庫(kù)在進(jìn)行復(fù)雜查詢時(shí)性能相對(duì)較弱。
騰訊云
云服務(wù)
2024-11-02
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家