目前,AIGC領(lǐng)域正處于蓬勃發(fā)展的階段,同時大規(guī)模數(shù)據(jù)集的使用和計算資源用量提升,也為AIGC業(yè)務(wù)架構(gòu)底層的基礎(chǔ)設(shè)施提出了更高的要求。為了更好地支持AIGC業(yè)務(wù)的發(fā)展,UCloud在數(shù)據(jù)中心建設(shè)、網(wǎng)絡(luò)、文件存儲、主機鏡像市場等多個方面都提供了相關(guān)產(chǎn)品和解決方案。
數(shù)據(jù)庫方面,在云主機鏡像市場已支持Milvus向量數(shù)據(jù)庫的基礎(chǔ)上,UCloud云數(shù)據(jù)庫UDB中的PostgreSQL(以下簡稱UPgSQL)還新增支持了pgvector向量數(shù)據(jù)庫插件,持續(xù)在AIGC業(yè)務(wù)架構(gòu)中所涉及的向量數(shù)據(jù)庫環(huán)節(jié)完善產(chǎn)品支持。
pgvector的特點及使用場景
pgvector是PostgreSQL數(shù)據(jù)庫的擴展插件,其設(shè)計目的是讓用戶能夠在現(xiàn)有的PostgreSQL數(shù)據(jù)庫上實現(xiàn)向量搜索和計算,而無需引入額外的向量數(shù)據(jù)庫,主要特點如下:
和PostgreSQL數(shù)據(jù)庫深度集成
pgvector作為PostgreSQL數(shù)據(jù)庫的一個擴展插件,它允許在PostgreSQL數(shù)據(jù)庫中存儲和查詢向量數(shù)據(jù),無需遷移數(shù)據(jù)或更改應(yīng)用程序架構(gòu),從而降低了集成的復(fù)雜性。如果業(yè)務(wù)架構(gòu)已經(jīng)在使用PostgreSQL,而且希望快速地添加向量數(shù)據(jù)支持,pgvector是一個便捷的選擇。
SQL簡單易用
pgvector使用標(biāo)準(zhǔn)SQL查詢語言,適合于熟悉SQL查詢的用戶,而Milvus等專業(yè)向量數(shù)據(jù)庫則是提供了自己的查詢語言和API。
數(shù)據(jù)模型可以靈活組合
pgvector允許用戶將向量數(shù)據(jù)存儲在表中的特定列中,同時允許將向量數(shù)據(jù)與其他屬性數(shù)據(jù)混合在一起。這種靈活性使得用戶可以在單一查詢中同時處理向量數(shù)據(jù)和其他結(jié)構(gòu)化數(shù)據(jù),從而滿足更廣泛的分析需求。
開箱即用
UDB UPgSQL數(shù)據(jù)庫產(chǎn)品已經(jīng)內(nèi)置了pgvector插件,可以在實例創(chuàng)建成功后直接開始使用,無需進行額外的配置。與Milvus等向量數(shù)據(jù)庫相比,這種集成方式減少了學(xué)習(xí)和配置的成本。
UCloud pgvector數(shù)據(jù)庫快速入門
pgvector最大支持創(chuàng)建16000個維度的向量,并可以對最大2000個維度的向量建立索引。云數(shù)據(jù)庫UPgSQL默認(rèn)已經(jīng)安裝并啟用pgvector插件,以下是商品搜索與推薦系統(tǒng)案例中使用pgvector的具體步驟:
1.在UCloud UPgSQL控制臺創(chuàng)建一臺PostgreSQL數(shù)據(jù)庫實例,通過root用戶登錄數(shù)據(jù)庫。
2.創(chuàng)建一個商品表,其中包含商品的名稱、描述和特征向量。
3.向商品表中插入一些商品數(shù)據(jù),包括商品名稱、描述以及與其相關(guān)的特征向量。
4.當(dāng)搜索商品時,可以使用向量相似度來執(zhí)行智能的商品搜索。
5.基于用戶的歷史購買記錄或瀏覽行為,可以計算用戶的偏好向量,然后根據(jù)相似度來為用戶推薦其他商品。
6.創(chuàng)建索引:為了提高查詢效率,pgvector支持為向量數(shù)據(jù)建立IVF-Flat索引,可以通過下列語句創(chuàng)建索引。
創(chuàng)建索引語句的參數(shù)說明:
·CREATE INDEX ON products表示在"products"表上創(chuàng)建一個新的索引。
·USING ivfflat:這部分指定了要使用的索引方法,即"ivfflat"。
·(vector_data vector_cosine_ops):"vector_data"是列的名稱,"vector_cosine_ops"是指向量余弦相似度操作符,這表明你希望使用余弦相似度來優(yōu)化這個索引。
·WITH(lists=100):"lists"參數(shù)設(shè)置為100,是為了控制索引中的列表數(shù)量,以便在向量搜索時進行更有效的查詢。
UDB作為UCloud云平臺的核心產(chǎn)品,為廣大用戶提供了多樣化的數(shù)據(jù)庫選擇,覆蓋了MySQL、PostgreSQL、SQL Server、MongoDB等常用數(shù)據(jù)庫品類。UDB PostgreSQL數(shù)據(jù)庫支持pgvector插件后,可以通過創(chuàng)建UDB PostgreSQL數(shù)據(jù)庫快速獲得pgvector功能,無需額外的配置。
同時,如果需要專業(yè)的向量數(shù)據(jù)庫功能,也可以使用UCloud鏡像市場中的Milvus鏡像,創(chuàng)建對應(yīng)主機獲取Milvus向量數(shù)據(jù)庫服務(wù)。作為一款開源向量數(shù)據(jù)庫,Milvus專注于高性能的向量數(shù)據(jù)存儲與檢索。它的設(shè)計旨在處理大規(guī)模的向量數(shù)據(jù),包括圖像、文本、音頻等各個領(lǐng)域的向量特征。Milvus以高效的相似性搜索和向量計算為特色,滿足了多領(lǐng)域數(shù)據(jù)探索和分析的需求。