為什么AI聊天機器人會胡編亂造,我們能完全信任它們的輸出嗎?為此,我們詢問了幾位專家,并深入研究了這些AI模型是如何工運行的,以找到答案。
“幻覺”——人工智能中的一個偏見性術語
AI聊天機器人(如OpenAI的ChatGPT)依賴于一種稱為“大型語言模型”(LLM)的人工智能來生成它們的響應。LLM是一種計算機程序,經過數百萬文本源的訓練,可以閱讀并生成“自然語言”文本語言,就像人類自然地寫作或交談一樣。不幸的是,它們也會犯錯。
在學術文獻中,AI研究人員經常稱這些錯誤為“幻覺”(hallucinations)。隨著這個話題成為主流,這個標簽也變得越來越具爭議,因為一些人認為它將人工智能模型擬人化(暗示它們具有類人的特征),或者在不應該暗示這一點的情況下賦予它們權力(暗示它們可以做出自己的選擇)。此外,商業(yè)LLM的創(chuàng)造者也可能以幻覺為借口,將錯誤的輸出歸咎于AI模型,而不是對輸出本身負責。
盡管如此,生成式AI還是一個很新的領域,我們需要從現有的想法中借用隱喻,向更廣泛的公眾解釋這些高度技術性的概念。在這種情況下,我們覺得“虛構”(confabulation)這個詞雖然同樣不完美,但比“幻覺”這個比喻要好。在人類心理學中,“虛構”指的是某人的記憶中存在一個空白,大腦以一段令人信服的虛構事實來填補他所遺忘的那段經歷,而非有意欺騙他人。ChatGPT不像人腦那樣運行,但是術語“虛構”可以說是一個更好的隱喻,因為它是以創(chuàng)造性地填補空白的原則(而非有意欺騙)在工作,這一點我們將在下面探討。
虛構問題
當AI機器人產生虛假信息時,這是一個大問題,這些信息可能會產生誤導或誹謗效果。最近,《華盛頓郵報》報道了一名法學教授發(fā)現ChatGPT將他列入了性騷擾他人的法律學者名單。但此事是子虛烏有,完全是ChatGPT編造的。同一天,Ars也報道了一名澳大利亞市長發(fā)現ChatGPT聲稱他被判受賄并被捕入獄,而該信息也完全是捏造的。
ChatGPT推出后不久,人們就開始鼓吹搜索引擎的終結。然而,與此同時,ChatGPT的許多虛構案例開始在社交媒體上廣為流傳。AI機器人發(fā)明了不存在的書籍和研究,教授沒有寫過的出版物,虛假的學術論文,虛假的法律引用,不存在的Linux系統(tǒng)功能,不真實的零售吉祥物,以及沒有意義的技術細節(jié)。
然而,盡管ChatGPT傾向于隨意撒些小謊,但它對虛構的抑制正是我們今天談論它的原因。一些專家指出,ChatGPT在技術上是對普通GPT-3(它的前身模型)的改進,因為它可以拒絕回答一些問題,或者當它的答案可能不準確時讓你知道。
大型語言模型專家、Scale AI的提示工程師(prompt engineer)Riley Goodside表示,“ChatGPT成功的一個主要因素是,它成功地抑制了虛構,使許多常見問題都不引人注意。與它的前輩相比,ChatGPT明顯不太容易編造東西?!?/p>
如果用作頭腦風暴工具,ChatGPT的邏輯跳躍和虛構可能會導致創(chuàng)造性突破。但當用作事實參考時,ChatGPT可能會造成真正的傷害,而OpenAI也深知這一點。
在該模型發(fā)布后不久,OpenAI首席執(zhí)行官Sam Altman就在推特上寫道,“ChatGPT的功能非常有限,但在某些方面足夠好,足以造成一種偉大的誤導性印象?,F在在任何重要的事情上依賴它都是錯誤的。這是進步的預演;在穩(wěn)健性和真實性方面,我們還有很多工作要做?!?/p>
在后來的一條推文中,他又寫道,“它確實知道很多,但危險在于,它在很大一部分時間里是盲目自信的,是錯誤的?!?/p>
這又是怎么一回事?
ChatGPT的運作原理
為了理解像ChatGPT或Bing Chat這樣的GPT模型是如何進行“虛構”的,我們必須知道GPT模型是如何運作的。雖然OpenAI還沒有發(fā)布ChatGPT、Bing Chat甚至GPT-4的技術細節(jié),但我們確實可以在2020年看到介紹GPT-3(它們的前身)的研究論文。
研究人員通過使用一種稱為“無監(jiān)督學習”的過程來構建(訓練)大型語言模型,如GPT-3和GPT-4,這意味著他們用于訓練模型的數據沒有特別的注釋或標記。在這個過程中,模型被輸入大量的文本(數以百萬計的書籍、網站、文章、詩歌、抄寫本和其他來源),并反復嘗試預測每個單詞序列中的下一個單詞。如果模型的預測與實際的下一個單詞接近,神經網絡就會更新其參數,以加強導致該預測的模式。
相反地,如果預測不正確,模型會調整參數以提高性能并再次嘗試。這種試錯的過程,雖然是一種稱為“反向傳播”(backpropagation)的技術,但可以讓模型從錯誤中學習,并在訓練過程中逐漸改進其預測。
因此,GPT學習數據集中單詞和相關概念之間的統(tǒng)計關聯。一些人,比如OpenAI首席科學家Ilya Sutskever,認為GPT模型比這更進一步,建立了一種內部現實模型,這樣他們就可以更準確地預測下一個最佳令牌(token),但這個想法是有爭議的。GPT模型如何在其神經網絡中提出下一個令牌的確切細節(jié)仍然不確定。
在當前的GPT模型浪潮中,這種核心訓練(現在通常稱為“預訓練”pre-training)只發(fā)生一次。在此之后,人們可以在“推斷模式”(inference mode)下使用訓練好的神經網絡,允許用戶將輸入輸進訓練好的網絡中并得到結果。在推理期間,GPT模型的輸入序列總是由人提供的,它被稱為“指令/提示”(prompt)。提示符決定了模型的輸出,即使稍微改變提示符也會極大地改變模型產生的結果。
例如,如果你提示GPT-3“瑪麗有一個……(Mary had a)”,它通常會用“小羊羔”來完成句子。這是因為在GPT-3的訓練數據集中可能有成千上萬個“瑪麗有只小羊羔(Mary had a little lamb)”的例子,這使得它成為一個合理的輸出結果。但是如果你在提示符中添加更多上下文,例如“在醫(yī)院,瑪麗有了一個(In the hospital,Mary had a)”,結果將會改變并返回“嬰兒”或“一系列檢查”之類的單詞。
這就是ChatGPT的有趣之處,因為它被設定為與代理(agent)的對話,而不僅僅是一個直接的文本生成工作。在ChatGPT的情況下,輸入提示是你與ChatGPT進行的整個對話,從你的第一個問題或陳述開始,包括在模擬對話開始之前提供給ChatGPT的任何具體指示。在此過程中,ChatGPT對它和你所寫的所有內容保持短期記憶(稱為“上下文窗口”),當它與你“交談”時,它正試圖完成對話的文本生成任務。
此外,ChatGPT不同于普通的GPT-3,因為它也接受了人類編寫的對話文本的訓練。OpenAI在其最初的ChatGPT發(fā)布頁面中寫道,“我們使用監(jiān)督微調(supervised fine-tuning)來訓練一個初始模型:人類AI訓練師提供對話,在對話中,他們會扮演雙方——用戶和人工智能助手。我們?yōu)橛柧殠熖峁┝四P途帉懙慕ㄗh,以幫助他們撰寫自己的回答?!?/p>
ChatGPT還使用一種稱為“基于人類反饋強化學習”(RLHF)的技術進行了更大的調整,在這種技術中,人類評分者會根據偏好對ChatGPT的回答進行排序,然后將這些信息反饋到模型中。通過RLHF,OpenAI能夠在模型中灌輸“避免回答無法準確應答的問題”的目標。這使得ChatGPT能夠以比基礎模型更少的虛構產生一致的響應。但不準確的信息仍會漏過。
為什么ChatGPT會產生虛構
從本質上講,GPT模型的原始數據集中沒有任何東西可以將事實與虛構區(qū)分開。
LLM的行為仍然是一個活躍的研究領域。即便是創(chuàng)建這些GPT模型的研究人員仍然在發(fā)現這項技術的驚人特性,這些特性在它們最初被開發(fā)時沒有人預測到。GPT能夠做我們現在看到的許多有趣的事情,比如語言翻譯、編程和下棋,這一度讓研究人員感到驚訝。
所以當我們問為什么ChatGPT會產生虛構時,很難找到一個確切的技術答案。由于神經網絡權重有一個“黑匣子”(black box)元素,在給出一個復雜的提示時,很難(甚至不可能)預測它們的準確輸出。盡管如此,我們還是知道一些虛構發(fā)生的基本原因。
理解ChatGPT虛構能力的關鍵是理解它作為預測機器的角色。當ChatGPT進行虛構時,它正在尋找數據集中不存在的信息或分析,并用聽起來似是而非的詞填充空白。ChatGPT特別擅長編造東西,因為它必須處理的數據量非常大,而且它收集單詞上下文的能力非常好,這有助于它將錯誤信息無縫地放置到周圍的文本中。
軟件開發(fā)人員Simon Willison表示,“我認為思考虛構的最好方法是思考大型語言模型的本質:它們唯一知道怎么做的事情是根據統(tǒng)計概率,根據訓練集選擇下一個最好的單詞?!?/p>
在2021年的一篇論文中,來自牛津大學和OpenAI的三位研究人員確定了像ChatGPT這樣的LLMs可能產生的兩種主要類型的謊言。第一個來自其訓練數據集中不準確的源材料,例如常見的誤解(如,“吃火雞會讓你昏昏欲睡”)。第二種源于對其訓練數據集中不存在的特定情況進行推斷;這屬于前面提到的“幻覺”標簽。
GPT模型是否會做出瘋狂的猜測,取決于AI研究人員所說的“溫度”(temperature)屬性,它通常被描述為“創(chuàng)造力”(creativity)設置。如果創(chuàng)造力被設定得很高,模型就會瘋狂猜測;如果它被設置為低,它將根據它的數據集確定地吐出數據。
最近,微軟員工Mikhail Parakhin在推特上談到了Bing Chat的幻覺傾向,以及產生幻覺的原因。他寫道,“這就是我之前試圖解釋的:幻覺=創(chuàng)造力。它試圖使用其處理的所有數據產生字符串的最高概率連續(xù)。它通常是正確的。有時人們從未制作過這樣的連續(xù)。”
Parakhin補充道,這些瘋狂的創(chuàng)造性跳躍正是LLM有趣的地方。你可以抑制幻覺,但你會發(fā)現這樣超級無聊。因為它總是回答“我不知道”,或者只反饋搜索結果中的內容(有時也不正確)?,F在缺失的是語調:在這些情況下,它不應該表現得那么自信?!?/p>
當涉及到微調像ChatGPT這樣的語言模型時,平衡創(chuàng)造性和準確性是一個挑戰(zhàn)。一方面,提出創(chuàng)造性回應的能力使ChatGPT成為產生新想法或消除作者瓶頸的強大工具。這也使模型聽起來更人性化。另一方面,當涉及到產生可靠的信息和避免虛構時,源材料的準確性至關重要。對于語言模型的開發(fā)來說,在兩者之間找到正確的平衡是一個持續(xù)的挑戰(zhàn),但這對于開發(fā)一個既有用又值得信賴的工具是至關重要的。
還有壓縮的問題。在訓練過程中,GPT-3考慮了PB級的信息,但得到的神經網絡的大小只是它的一小部分。在一篇被廣泛閱讀的《紐約客》文章中,作者Ted Chiang稱這是一張“模糊的網絡JPEG”。這意味著大部分事實訓練數據會丟失,但GPT-3通過學習概念之間的關系來彌補了這一點,之后它可以使用這些概念重新制定這些事實的新排列。就像一個有缺陷記憶的人根據預感工作一樣,它有時會出錯。當然,如果它不知道答案,它會給出最好的猜測。
我們不能忘記提示符在虛構中的作用。在某些方面,ChatGPT是一面鏡子:你給它什么,它就給你什么。如果你給它灌輸謊言,它就會傾向于同意你的觀點,并沿著這些路線“思考”。這就是為什么在改變話題或遇到不想要的回應時,用一個新的提示重新開始是很重要的。ChatGPT是概率性的,這意味著它在本質上是部分隨機的。即使使用相同的提示,它輸出的內容也可能在會話之間發(fā)生變化。
所有這些都得出了一個結論,OpenAI也同意這個結論:ChatGPT目前的設計并不是一個可靠的事實信息來源,也不值得信任。AI公司Hugging Face的研究員兼首席倫理科學家Margaret Mitchell博士認為,“ChatGPT在某些事情上非常有用,比如在縮小寫作瓶頸或提出創(chuàng)意想法時。它不是為事實而建的,因此也不會是事實。就是這么簡單。”
撒謊能被糾正嗎?
盲目地相信AI聊天機器人是一個錯誤,但隨著底層技術的改進,這種情況可能會改變。自去年11月發(fā)布以來,ChatGPT已經升級了幾次,其中一些升級包括準確性的提高,以及拒絕回答它不知道答案的問題的能力。
那么OpenAI計劃如何讓ChatGPT更準確呢?在過去的幾個月里,我們多次就這個問題聯系OpenAI,但沒有得到任何回應。但我們可以從OpenAI發(fā)布的文件和有關該公司試圖引導ChatGPT與人類員工保持一致的新聞報道中找到線索。
如前所述,ChatGPT如此成功的原因之一是因為使用RLHF進行了廣泛的訓練。OpenAI解釋稱,“為了讓我們的模型更安全、更有幫助、更一致,我們使用了一種名為‘基于人類反饋強化學習(RLHF)’的現有技術。根據客戶向API提交的提示,我們的標簽器提供所需模型行為的演示,并對來自模型的幾個輸出進行排序。然后,我們使用這些數據對GPT-3進行微調?!?/p>
OpenAI的Sutskever認為,通過RLHF進行額外的訓練可以解決幻覺問題。Sutskever在本月早些時候接受《福布斯》采訪時稱,“我非常希望,通過簡單地改進這個后續(xù)RLHF教會它不要產生幻覺。”
他繼續(xù)道,“我們今天做事的方式是雇人來教我們的神經網絡如何反應,教聊天工具如何反應。你只需與它互動,它就會從你的反應中看出,哦,這不是你想要的。你對它的輸出不滿意。因此,輸出不是很好,下次應該做一些不同的事情。我認為這是一個很大的變化,這種方法將能夠完全解決幻覺問題。”
其他人并不同意。Meta的首席人工智能科學家Yann LeCun認為,當前使用GPT架構的LLM無法解決幻覺問題。但是有一種新出現的方法,可能會在當前架構下為LLM帶來更高的準確性。他解釋稱,“在LLM中增加真實性的最活躍的研究方法之一是檢索增強——向模型提供外部文檔作為來源和支持上下文。通過這種技術,研究人員希望教會模型使用谷歌這樣的外部搜索引擎,像人類研究人員一樣,在答案中引用可靠的來源,減少對模型訓練中學習到的不可靠的事實知識的依賴?!?/p>
Bing Chat和Google Bard已經通過網絡搜索實現了這一點,很快,一個支持瀏覽器的ChatGPT版本也會實現。此外,ChatGPT插件旨在補充GPT-4的訓練數據,它從外部來源檢索信息,如網絡和專門建造的數據庫。這種增強類似于有百科全書的人會比沒有百科全書的人更準確地描述事實。
此外,也有可能訓練一個像GPT-4這樣的模型,讓它意識到自己什么時候在瞎編,并做出相應的調整。Mitchell認為,“人們可以做一些更深入的事情,讓ChatGPT和類似的東西從一開始就更加真實,包括更復雜的數據管理,以及使用一種類似于PageRank的方法,將訓練數據與‘信任’分數聯系起來……當它對答復不那么有信心時,還可以對模型進行微調以對沖風險?!?/p>
因此,雖然ChatGPT目前因其虛構問題而陷入困境,但也許還有一條出路,隨著越來越多的人開始依賴這些工具作為基本助手,相信可靠性的改進應該很快就會到來。