Facebook 開源自然語言處理模型,可檢索文檔回答問題

來源: 百家號
作者:SegmentFault思否
時間:2020-09-30
17238
Facebook和AI初創(chuàng)公司Hugging Face今天開源了一種AI模型檢索增強生成(RAG),這是一種自然語言處理模型,可以查找和解釋上下文信息來完成一系列任務(wù)。

Facebook和AI初創(chuàng)公司Hugging Face今天開源了一種AI模型檢索增強生成(RAG),這是一種自然語言處理模型,可以查找和解釋上下文信息來完成一系列任務(wù)。

RAG可以通過通過動態(tài)地改變或補充其內(nèi)部知識,使研究人員能夠控制模型掌握的內(nèi)容,研究人員不必對其計算能力進行再培訓(xùn)就可以獲得最先進的結(jié)果。

從今天開始,RAG可以作為Hugging Face轉(zhuǎn)換器庫的組件提供,與新的數(shù)據(jù)庫集成,提供RAG所依賴的索引知識源。

u=1738292955,1466610413&fm=26&gp=0.jpg

RAG整合知識的“后期融合”方式

自然語言理解領(lǐng)域的前沿工作已經(jīng)產(chǎn)生了通用模型,這些模型雖然常常存在缺陷,但是是可以推廣的。到目前為止,大多數(shù)模型已經(jīng)應(yīng)用于無需知識背景就可以生成解決方案的任務(wù)中,比如情緒分析這類任務(wù)。

相比之下RAG使用輸入數(shù)據(jù)從像Wikipedia這樣的數(shù)據(jù)庫中檢索相關(guān)的文檔。例如,給出一個“地球上第一個哺乳動物是什么時候出現(xiàn)的?”的問題,RAG可能會提供“哺乳動物”、“地球歷史”、“哺乳動物進化”等文獻作為上下文與輸入連接,然后輸入模型以生成輸出文本。

根據(jù)Facebook的說法,RAG利用了一種“后期融合”的形式來整合檢索到的文檔中的知識,這意味著它在聚合最終的預(yù)測分數(shù)之前對文檔問題對進行答案預(yù)測。當(dāng)它可以訪問包含答案線索的文檔時,如果答案不是逐字陳述的,RAG的性能會進一步提高。在某些情況下,RAG甚至?xí)纱鸢?,而這些答案并不包含在檢索到的任何文檔中。

RAG擅長知識密集型自然語言問題

Facebook稱,當(dāng)對諸如包含來自Google搜索用戶的問題的NaturalQuestions之類的開放域數(shù)據(jù)集進行基準測試時,RAG顯示了在找不到答案的情況下生成正確答案的訣竅。

RAG還擅長于知識密集型的自然語言問題,F(xiàn)acebook通過創(chuàng)建受Jeopardy啟發(fā)的問題進行了探索。與其他同類模型相比,RAG產(chǎn)生的問題更加具體、多樣且更加真實。這也許是因為RAG能夠利用從多個來源獲得的不同信息綜合出不同的答案的能力。

RAG的研究經(jīng)理Sebastian Riedel表示,雖然RAG在Facebook的生產(chǎn)中沒有使用,但其背后的團隊正在積極迭代以減少潛在的偏見。他們將培訓(xùn)數(shù)據(jù)集中的文檔限制在Wikipedia上,他們認為Wikipedia比當(dāng)今許多語言模型的網(wǎng)絡(luò)爬蟲更安全。

RAG的最大優(yōu)勢:靈活性

研究人員正在探索RAG的一個版本,這個版本可以最大程度地降低剩余風(fēng)險,以便達到一貫的輸出安全的程度。他們正在研究如何擴展RAG,使其多通道化,并使其同時使用多個知識源進行操作。

Sebastian Riedel說:“RAG的真正優(yōu)勢在于它的靈活性,要改變一個預(yù)先訓(xùn)練過的語言模型所知道的東西,需要用新的文檔對整個模型進行再訓(xùn)練。通過RAG,我們可以通過交換用于知識檢索的文檔來控制它所知道的內(nèi)容。我們在帶有RAG的NaturalQuestions,CuratedTrec和WebQuestions上獲得了非常出色的結(jié)果,表明可以用生成的而不是提取的讀取器來實現(xiàn)最新的機器讀取性能。”

Facebook認為RAG具有廣闊的潛力,它斷言這將使研究人員能夠僅用幾行代碼就可以為知識密集型任務(wù)部署解決方案。

Facebook方面稱,“RAG允許NLP模型繞過再培訓(xùn)步驟,訪問和提取最新的信息,然后使用生成器輸出結(jié)果。我們預(yù)見未來對知識密集型任務(wù)的研究潛力,這些任務(wù)就像今天的情緒分析這樣的輕量級知識任務(wù)一樣簡單易懂。”

立即登錄,閱讀全文
版權(quán)說明:
本文內(nèi)容來自于百家號,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多