Google針對語言模型的新研究,要了解大型語言模型識別并修正自己錯誤的兩個重要能力。研究人員開發(fā)BIG-Bench Mistake評估基準(zhǔn)數(shù)據(jù)集進行試驗,發(fā)現(xiàn)大型語言模型雖然可以識別出自身在推理過程中出現(xiàn)的邏輯錯誤,并進行自我修正,但是這個過程并不夠好,常需要人工干預(yù)來指正模型的輸出,而研究人員提出了自我修正新方法,讓模型能夠發(fā)現(xiàn)自己輸出的錯誤,并根據(jù)反饋改進結(jié)果。
由于過去并沒有能夠評估大型語言模型糾錯能力的數(shù)據(jù)集,因此Google研究人員創(chuàng)建了BIG-Bench Mistake評估基準(zhǔn)數(shù)據(jù)集,特別是用于驗證在數(shù)學(xué)領(lǐng)域以外的錯誤發(fā)現(xiàn)任務(wù)上。BIG-Bench Mistake數(shù)據(jù)集包含了語言模型PaLM在BIG-Bench之中5項任務(wù),所生成的關(guān)聯(lián)思考(Chain-of-Thought)軌跡,每個軌跡都被標(biāo)注出第一個邏輯錯誤。
為了最大化數(shù)據(jù)集的錯誤數(shù)量,Google選取了255個答案不正確的軌跡,和45個答案正確的軌跡,隨后研究人員請人工標(biāo)記者逐一審查每個軌跡,并標(biāo)記出第一個錯誤,每個軌跡至少由3名標(biāo)記者進行標(biāo)注,確保答案的可靠性。雖然大部分的任務(wù)都是由人類標(biāo)記,但是其中有一種稱為Dyck語言用于檢查上下括號是否閉合的任務(wù),是由算法自動標(biāo)注。
研究人員提到,因為這個數(shù)據(jù)集中的邏輯錯誤都很簡單明確,因此可以作為一個良好的測試標(biāo)準(zhǔn),用于檢驗大型語言模型是否能夠被用于更難更模糊的任務(wù)前,能否先找出自己的錯誤。簡單來說,在學(xué)會更難的數(shù)學(xué)題目之前,先練習(xí)加減法一樣,這個數(shù)據(jù)集可以協(xié)助大型語言模型先從簡單的邏輯錯誤開始練習(xí),逐步提升識別錯誤的能力。
研究發(fā)現(xiàn),即便是最先進的大型語言模型在關(guān)聯(lián)思考風(fēng)格推理中,找到邏輯錯誤的能力也相對有限,其中最佳模型的準(zhǔn)確率僅52.9%。其次,將錯誤發(fā)現(xiàn)作為答案正確性的代理,這一個方法效果并不理想,簡單來說,在評估問題的答案時,不直接判斷答案本身的正確性,而是檢查解答過程中是否存在邏輯錯誤,當(dāng)過程中未發(fā)現(xiàn)錯誤,則假定答案正確,反之則是答案錯誤,而實驗結(jié)果發(fā)現(xiàn)這個假設(shè)并不有效,與總是將答案標(biāo)記為錯誤的簡單策略相比沒好上太多。
即使知道錯誤的具體位置,大型語言模型在修正錯誤的表現(xiàn)也表現(xiàn)不佳。此外,通過4項BIG-Bench任務(wù)微調(diào)的小型模型表現(xiàn),接著在未曾見過的任務(wù)上進行測試,通常比零樣本提示的大型模型表現(xiàn)更好。這顯示借由針對性的訓(xùn)練和調(diào)整,大型語言模型能夠?qū)W習(xí)并應(yīng)用錯誤發(fā)現(xiàn)的技能到未知的場景中,進而提高在各種不同任務(wù)上的準(zhǔn)確性和可靠性。
研究人員認(rèn)為這是一個重要的結(jié)果,因為可以僅使用一個小型的微調(diào)獎勵模型來進行回溯,并提高任務(wù)的準(zhǔn)確性,即便沒有任務(wù)相關(guān)的數(shù)據(jù)。較小的獎勵模型完全獨立于生成器大型語言模型,并且可以針對個別使用案例進行更新和進一步微調(diào)。
這項研究的貢獻在于揭示了大型語言模型在自我修正方面的挑戰(zhàn),并為未來的改進提供了方向。