隨著越來越多的企業(yè)開發(fā)和部署由人工智能(AI)驅(qū)動的應(yīng)用程序,我們需要做出決策:使用什么樣的向量數(shù)據(jù)庫?
向量是通過計算得出的字符串,用來表示非結(jié)構(gòu)化數(shù)據(jù),可幫助企業(yè)為通用大語言模型 (large language models, LLM) 添加場景。向量可以對其表示的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行快速語義搜索,這是進(jìn)行產(chǎn)品推薦或顯示數(shù)據(jù)或?qū)ο笾g相關(guān)性等用途的關(guān)鍵功能。
對于許多企業(yè)來說,向量已經(jīng)或很快將成為需要管理的全新數(shù)據(jù)類型。AI 開發(fā)團(tuán)隊必須確定存儲、管理和檢索向量數(shù)據(jù)的方式。目前主要有兩種選擇:專用向量數(shù)據(jù)庫(purpose-built vector databases)或多模數(shù)據(jù)庫(multi-modal databases),例如 Oracle Database 23c 不僅支持向量,還支持許多其他數(shù)據(jù)類型。
這兩種方法都各有優(yōu)勢。專用向量數(shù)據(jù)庫的目的是讓 LLM 在響應(yīng)查詢時使用您的數(shù)據(jù)。但是它們可能不太適合其他數(shù)據(jù)類型和工作負(fù)載。由于向量數(shù)據(jù)庫是新的,因此必須將它們集成到您現(xiàn)有的應(yīng)用程序架構(gòu)中。這項工作包括確定可擴(kuò)展性、添加安全性和身份管理以及滿足可用性和性能預(yù)期。
Oracle Database 23c 等通用數(shù)據(jù)庫可以避免這些問題。Oracle Database 23c 不僅能處理包括向量在內(nèi)的多種數(shù)據(jù)類型,而且它還集成到您的應(yīng)用環(huán)境中,并已包含公司數(shù)據(jù)。無需將數(shù)據(jù)移入專門的向量數(shù)據(jù)庫,團(tuán)隊可以集中精力利用公司數(shù)據(jù)增強 LLM。
Oracle 用來描述這種高度集成模型的術(shù)語是“融合數(shù)據(jù)庫”,即原生支持各種現(xiàn)代數(shù)據(jù)類型、分析和最新開發(fā)范例的數(shù)據(jù)庫。例如,Oracle 數(shù)據(jù)庫支持事務(wù)、分析、AI/ML、區(qū)塊鏈、圖形、空間、JSON、REST、事件、物聯(lián)網(wǎng)流等,這些都是核心系統(tǒng)的一部分。
Oracle 一位優(yōu)秀的產(chǎn)品經(jīng)理 Maria Colgan 在一篇有關(guān)融合數(shù)據(jù)庫的博客文章中寫道:“它允許您使用單一平臺支持許多不同的項目?!?/p>
Oracle 近期將向量數(shù)據(jù)添加到 Oracle 數(shù)據(jù)庫不斷增長的數(shù)據(jù)類型列表中。這種支持的形式是 Oracle Database 23c 中名為 “AI Vector Search” 的新的、有限可用性功能,它包括原生數(shù)據(jù)類型的向量,以及向量索引和向量搜索 SQL 運算符,這些功能使得非結(jié)構(gòu)化數(shù)據(jù)的語義內(nèi)容存儲為向量成為可能。接下來您可以對文檔、圖像和任何其他表示為向量的非結(jié)構(gòu)化數(shù)據(jù)運行瞬間相似性查詢。
更簡單、更快捷、更精確
甲骨文關(guān)鍵任務(wù)數(shù)據(jù)庫技術(shù)執(zhí)行副總裁 Juan Loaiza 在 2023 年 9 月 Oracle CloudWorld 上宣布推出 AI Vector Search時,強調(diào)了集成向量和業(yè)務(wù)數(shù)據(jù)的優(yōu)勢。
Juan Loaiza 表示:“如果業(yè)務(wù)數(shù)據(jù)和語義數(shù)據(jù)都由一個數(shù)據(jù)庫管理,那么對這兩類數(shù)據(jù)的組合搜索就會更簡單、更快捷、更精確?!?/p>
使用集成向量數(shù)據(jù)庫的五大優(yōu)勢
多功能性。融合數(shù)據(jù)庫可處理多種數(shù)據(jù)類型和工作負(fù)載。它們不僅適用于許多公司日益重視的支持向量的應(yīng)用,而且其內(nèi)置的靈活性還為涉及其他數(shù)據(jù)類型的新用例敞開了大門。融合數(shù)據(jù)庫并不會“黔驢技窮”。
降低復(fù)雜性。多年來,IT 領(lǐng)導(dǎo)者一直在努力解決數(shù)據(jù)庫龐雜的問題,這是部門項目、專業(yè)數(shù)據(jù)庫、單點解決方案和“影子IT”進(jìn)入數(shù)據(jù)基礎(chǔ)設(shè)施的結(jié)果。首席信息官和首席技術(shù)官最不希望看到的就是另一個一次性平臺。Oracle Database 23c 作為滿足各種數(shù)據(jù)管理需求(交易、分析、人工智能、地理分布、數(shù)據(jù)整合等)的企業(yè)標(biāo)準(zhǔn),有助于降低復(fù)雜性。
結(jié)合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。借助 AI Vector Search,Oracle Database 23c 可以將結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)與非結(jié)構(gòu)化向量數(shù)據(jù)結(jié)合在一起,Juan Loaiza 在 Oracle CloudWorld 的找房應(yīng)用中展示了這一功能。這種集成方法的另一個好處是,它減少了跨數(shù)據(jù)庫移動或同步數(shù)據(jù)的需要,從而增強了一致性。
利用現(xiàn)有技能。您的組織是否擁有建立和管理專門的向量數(shù)據(jù)庫所需的專業(yè)知識和實際管理資源?如果沒有,使用 Oracle Database 23c 進(jìn)行向量搜索的另一個優(yōu)勢是許多開發(fā)人員和數(shù)據(jù)庫管理員已經(jīng)擁有 Oracle 數(shù)據(jù)庫的經(jīng)驗。
企業(yè)級能力。隨著支持向量的應(yīng)用程序從試點項目發(fā)展到面向客戶的部署,它們必須提供業(yè)務(wù)經(jīng)理期望從業(yè)務(wù)運行應(yīng)用程序中獲得的性能、可擴(kuò)展性、安全性和可靠性級別。Oracle AI Vector Search 通過利用其他企業(yè)級 Oracle 功能,例如真正應(yīng)用集群 (RAC)、分區(qū)、分片、安全性、分析和災(zāi)難恢復(fù)消除了這一障礙。
更多 AI 構(gòu)件
正如這些示例所示,Oracle Database 23c 可以把支持向量的相似性搜索添加到用戶體驗。AI Vector Search 只是 Oracle 提供的幾個新的 AI 構(gòu)件之一。
例如,基于 Oracle 數(shù)據(jù)庫和自治數(shù)據(jù)庫構(gòu)建的應(yīng)用程序可以添加基于 LLM 的自然語言界面。事實上,Oracle 自治數(shù)據(jù)庫(Oracle Autonomous Database)于 2023 年 9 月發(fā)布了 Select AI 這一自然語言界面。Oracle 數(shù)據(jù)庫工具 APEX 和 SQL Developer 提供生成式 AI 功能(目前有限使用),讓開發(fā)人員使用自然語言生成應(yīng)用程序或 SQL 查詢。
Oracle Database 23c 旨在增強開發(fā)人員和數(shù)據(jù)專業(yè)人員的能力。技術(shù)決策者在評估其構(gòu)建AI應(yīng)用的選項時,可參考 Oracle Database 23c 中的新功能,這些應(yīng)用可將內(nèi)部的向量數(shù)據(jù)與 LLM 結(jié)合起來,并提供自然語言界面。
目前,Oracle Database 23c 免費版為特定群體提供 AI Vector Search 功能,2024 年 4 月將支持更廣泛的訪問。
注:為免疑義,本新聞所用以下術(shù)語專指以下含義:
1. Oracle 專指 Oracle 境外公司而非甲骨文中國。
2. 相關(guān) Cloud 或云術(shù)語均指代 Oracle 境外公司提供的云技術(shù)或其解決方案。