“生成式AI(Generative AI)的興起,給定義、衡量和消除公平性、合規(guī)和知識(shí)產(chǎn)權(quán)等方面的問(wèn)題帶來(lái)了全新挑戰(zhàn)。但是,越來(lái)越多的企業(yè)已經(jīng)開(kāi)始研究相應(yīng)的解決方案?!?/p>
——Michael Kearns
Amazon Scholar、賓夕法尼亞大學(xué)
計(jì)算機(jī)信息與信息科學(xué)系教授
Michael Kearns
近幾年,甚至是最近幾個(gè)月,生成式AI技術(shù)取得了顯著性發(fā)展與進(jìn)步。生成式AI基礎(chǔ)模型是在大規(guī)模文本、代碼、圖像和其他內(nèi)容的數(shù)據(jù)集上進(jìn)行訓(xùn)練的?,F(xiàn)在,它們能夠按需生成連貫、引人入勝的故事,新聞?wù)?shī)歌,歌詞,繪畫作品和程序等。我們相信,生成式AI的潛在應(yīng)用場(chǎng)景才剛剛開(kāi)始被發(fā)掘,會(huì)有涉及多個(gè)方面并兼具革命性的場(chǎng)景迎來(lái)爆發(fā)式增長(zhǎng),其中包含寫作輔助、創(chuàng)意內(nèi)容生成和提煉、個(gè)人助手、廣告文案撰寫、代碼生成等。
因此,人們對(duì)于生成式AI帶來(lái)的轉(zhuǎn)變和新機(jī)遇感到興奮。但同時(shí),也伴有一些擔(dān)憂——其中一些是傳統(tǒng)負(fù)責(zé)任的AI(如公平性和隱私性)的新轉(zhuǎn)變,還有部分是真正的新問(wèn)題(例如對(duì)藝術(shù)或文學(xué)風(fēng)格的模仿)。在本文中,我們研究了這些問(wèn)題以及它們?nèi)绾坞S著時(shí)間推移得到解決。
我們主要關(guān)注了消除風(fēng)險(xiǎn)的技術(shù)方法,同時(shí)承認(rèn)社會(huì)、法律、監(jiān)管和政策機(jī)制也將發(fā)揮重要作用。在亞馬遜云科技,我們希望此類兼具平衡性的方法可顯著降低風(fēng)險(xiǎn),同時(shí)仍然保留生成式AI的許多激動(dòng)人心和有用的特性。
生成式AI的問(wèn)題何在?
生成式AI中的“生成式”是指:該技術(shù)可生成開(kāi)放式內(nèi)容,內(nèi)容會(huì)在重復(fù)嘗試后不斷變化。因此,對(duì)于生成式AI生成的翔實(shí)、極富創(chuàng)造性和開(kāi)放式內(nèi)容,我們?yōu)榇烁冻龅钠渲幸粋€(gè)代價(jià)是,與傳統(tǒng)預(yù)測(cè)機(jī)器學(xué)習(xí)相比,定義、衡量和落實(shí)公平性的困難度更高。
從公平性到隱私性
同樣地,我們需要考慮隱私問(wèn)題。生成式AI具備的開(kāi)放性擴(kuò)大了大眾的關(guān)注范圍,從一字不差地泄露訓(xùn)練數(shù)據(jù)到更微妙的復(fù)制現(xiàn)象。例如,如果程序員使用特定變量名稱編寫部分代碼,然后要求大語(yǔ)言模型幫助編寫子例程,大語(yǔ)言模型會(huì)從訓(xùn)練數(shù)據(jù)生成代碼,但程序員選擇的變量名稱也將替換原始變量名稱。當(dāng)然,訓(xùn)練數(shù)據(jù)雖包含生成的代碼,但也只是外觀略有不同。
市面上,現(xiàn)有一些針對(duì)這些挑戰(zhàn)的防御措施,其中包含管理訓(xùn)練數(shù)據(jù)、排除私人信息,以及檢測(cè)代碼段相似性的技術(shù),但更微妙的復(fù)制方式也可實(shí)現(xiàn)。傳統(tǒng)機(jī)器學(xué)習(xí)雖已開(kāi)始開(kāi)發(fā)可解釋訓(xùn)練模型的決策或預(yù)測(cè)的技術(shù),但并非始終適用于生成式AI,其中的部分原因是現(xiàn)有生成式模型偶爾會(huì)生成無(wú)法解釋的內(nèi)容(例如實(shí)際不存在的科學(xué)引文)。
負(fù)責(zé)任的生成式AI的特殊挑戰(zhàn)
對(duì)于生成式AI而言,日常關(guān)注負(fù)責(zé)任的AI領(lǐng)域愈發(fā)困難,生成式AI也帶來(lái)了挑戰(zhàn)。我們來(lái)討論以下這些方面的內(nèi)容。
·違規(guī)。生成式AI的主要問(wèn)題是生成冒犯、令人焦慮或其他不當(dāng)內(nèi)容(無(wú)論是文本、圖像或其他形式)的可能性。而且,甚至難以定義和確定問(wèn)題的范圍。確定哪些因素構(gòu)成有害內(nèi)容涉及的主觀性是一項(xiàng)額外挑戰(zhàn),限制違規(guī)內(nèi)容與審查之間的界限可能模糊不清,這取決于背景和文化。如果明確標(biāo)記為引文,是否應(yīng)屏蔽被視為具有冒犯性和斷章取義的引文?對(duì)部分用戶具有冒犯性但明確標(biāo)記為觀點(diǎn)的內(nèi)容意見(jiàn),將如何處理?技術(shù)挑戰(zhàn)包括冒犯性內(nèi)容,這些內(nèi)容采用非常微妙或間接措辭的形式,而非明顯的煽動(dòng)性語(yǔ)言。
·錯(cuò)覺(jué)。鑒于大語(yǔ)言模型采用后續(xù)詞匯分布抽樣,因此在更客觀或更真實(shí)的用例中,大語(yǔ)言模型極易受偶爾稱為錯(cuò)覺(jué)的影響,即似乎可信但實(shí)際驗(yàn)證不正確的斷言或主張。例如,當(dāng)前大語(yǔ)言模型的常見(jiàn)現(xiàn)象是,創(chuàng)建實(shí)際不存在的科學(xué)引文。如果通過(guò)請(qǐng)求“請(qǐng)與我分享一些邁克爾·卡恩斯撰寫的論文”提示其中一個(gè)大語(yǔ)言模型,實(shí)際并不會(huì)搜索合法引文,而是從與該作者關(guān)聯(lián)的詞匯分布中生成引文。生成的結(jié)果是機(jī)器學(xué)習(xí)領(lǐng)域的實(shí)際標(biāo)題和主題,而非真正的文章,內(nèi)容可能包含看似合理的合著者,實(shí)際內(nèi)容卻沒(méi)有。
同樣地,財(cái)經(jīng)新聞報(bào)道的提示不會(huì)觸發(fā)搜索(例如)《華爾街日?qǐng)?bào)》文章,而是大語(yǔ)言模型使用財(cái)經(jīng)詞匯隨意捏造的新聞文章。請(qǐng)注意,在童話創(chuàng)作場(chǎng)景中,此類創(chuàng)造力無(wú)害,甚至可取。但現(xiàn)有大語(yǔ)言模型不支持用戶區(qū)分“使用創(chuàng)造力”和“未使用創(chuàng)造力”的用例。
·知識(shí)產(chǎn)權(quán)。早期大語(yǔ)言模型的問(wèn)題是偶爾傾向于生成特定文本或代碼段,這些內(nèi)容會(huì)一字不差地對(duì)部分訓(xùn)練數(shù)據(jù)進(jìn)行“反流”,進(jìn)而引發(fā)隱私和其他問(wèn)題。但即使這方面有所改進(jìn),也未能阻止復(fù)制更模糊和微妙的訓(xùn)練內(nèi)容。請(qǐng)考慮,上述多模式生成式模型的提示“以安迪沃霍爾(Andy Warhol)的風(fēng)格創(chuàng)作一幅貓?jiān)谕婊宓漠嬜鳌?。如果模型可以令人信服但仍以原始的方式?shí)現(xiàn)創(chuàng)作,將對(duì)此類模仿提出異議,這是因?yàn)樵撃P徒邮苷鎸?shí)的沃霍爾繪畫的訓(xùn)練。
·剽竊和作弊。生成式AI的創(chuàng)造性引發(fā)了大眾擔(dān)憂,具體是該模型用于撰寫大學(xué)論文,為工作申請(qǐng)書(shū)編寫樣本,以及其他形式的作弊或非法復(fù)制。各大院校和眾多其他機(jī)構(gòu)就此話題展開(kāi)激烈討論,而且態(tài)度差異明顯。部分人同意明確禁止在分級(jí)內(nèi)容或評(píng)估環(huán)境中使用生成式AI,另一部分人認(rèn)為教育實(shí)踐活動(dòng)應(yīng)當(dāng)適應(yīng)甚至接受新技術(shù)。但驗(yàn)證指定內(nèi)容片段是否由某人創(chuàng)作的潛在挑戰(zhàn),大概率會(huì)在多數(shù)情況下引發(fā)爭(zhēng)議。
·對(duì)工作特性的負(fù)面影響。生成式AI可熟練創(chuàng)建備受好評(píng)的文本和圖像,在標(biāo)準(zhǔn)化測(cè)試中性能穩(wěn)定,針對(duì)指定主題創(chuàng)作整篇文章,并成功總結(jié)或更正指定文章的語(yǔ)法,這引起了小范圍焦慮,該技術(shù)可能取代部分職業(yè)或產(chǎn)生較大的負(fù)面影響。雖為時(shí)尚早,但似乎生成式AI會(huì)對(duì)工作的諸多方面產(chǎn)生革命性影響,支持機(jī)器處理大量此前超出自動(dòng)化范疇的任務(wù)。
應(yīng)對(duì)措施?
以上挑戰(zhàn)貌似困難重重,部分原因是與前幾代人工智能相比,大眾不太熟悉這些模型。但隨技術(shù)人員和大眾深入了解生成式AI及其用途和局限性,科學(xué)界或相關(guān)政府機(jī)構(gòu)會(huì)劃分新科學(xué)和制定新政策,從而應(yīng)對(duì)這些挑戰(zhàn)。
對(duì)于違規(guī)和公平性,謹(jǐn)慎管理訓(xùn)練數(shù)據(jù)可能會(huì)有些許幫助。但畢竟,如果數(shù)據(jù)不含任何冒犯性或偏見(jiàn)的詞匯或詞組,大語(yǔ)言模型根本無(wú)法生成任何內(nèi)容。但此類方法又要求我們提前標(biāo)識(shí)這些令人不悅的詞組,并確定絕對(duì)沒(méi)有這些內(nèi)容適用地輸出上下文。特定于用例的測(cè)試也有助于解決公平性問(wèn)題——例如,在消費(fèi)者貸款等高風(fēng)險(xiǎn)領(lǐng)域應(yīng)用生成式AI前,可針對(duì)特定應(yīng)用開(kāi)展公平性測(cè)試,這一點(diǎn)與適用范圍更狹窄的預(yù)測(cè)模型相似。
對(duì)于針對(duì)性更小的違規(guī)概念,一種自然方法是訓(xùn)練護(hù)欄模型,檢測(cè)并篩出訓(xùn)練數(shù)據(jù),輸入提示和生成輸出不需要的內(nèi)容。此類模型需要人工對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行注釋,確定其中類型和程度不同的違規(guī)或偏見(jiàn),便于模型完成生成作業(yè)。通常,由于我們計(jì)劃解決任務(wù)的極端通用性,因此控制生成模型輸出比管理訓(xùn)練數(shù)據(jù)和提示更容易。
對(duì)于沒(méi)有任何錯(cuò)覺(jué)的高真實(shí)度內(nèi)容,創(chuàng)作此類內(nèi)容的挑戰(zhàn)在于重要的第一步是向用戶講解生成式AI的實(shí)際工作方式,避免產(chǎn)生引文或類似新聞報(bào)道始終真實(shí)或事實(shí)正確但不切合實(shí)際的期待。實(shí)際上,在問(wèn)到無(wú)法引用實(shí)際引文時(shí),一些現(xiàn)有的大語(yǔ)言模型會(huì)告知用戶它們是語(yǔ)言模型,不會(huì)使用外部來(lái)源驗(yàn)證內(nèi)容。此類免責(zé)聲明應(yīng)更加頻繁,內(nèi)容更加明確。使用已驗(yàn)證的獨(dú)立引文數(shù)據(jù)庫(kù)和相似來(lái)源增強(qiáng)大語(yǔ)言模型,并采用檢索增強(qiáng)生成,可在一定程度上解決錯(cuò)覺(jué)引文的具體問(wèn)題。另一種新出現(xiàn)的有趣方法是,制定將生成輸出歸因于特定訓(xùn)練數(shù)據(jù)片段的方法,支持用戶評(píng)估這些來(lái)源的有效性。這對(duì)解釋問(wèn)題也有所幫助。
隨時(shí)間推移,技術(shù)、政策和法律機(jī)制的綜合方案有望緩解圍繞知識(shí)產(chǎn)權(quán)產(chǎn)生的擔(dān)憂。短期內(nèi),科學(xué)開(kāi)始融入圍繞模型追繳的各種概念,進(jìn)而減少或消除受保護(hù)的內(nèi)容或其對(duì)生成輸出的影響。一種最終證明相關(guān)性的技術(shù)是差分隱私,對(duì)于模型隨后生成的輸出,模型的訓(xùn)練方式確保了任何特定訓(xùn)練數(shù)據(jù)片段對(duì)其的影響忽略不計(jì)。
另一種方法是所謂的分片方法,將訓(xùn)練數(shù)據(jù)拆分為更小的部分,使用這些部分對(duì)單獨(dú)的子模型進(jìn)行訓(xùn)練;然后,合并子模型,從而構(gòu)成整體模型。為消解任何特定數(shù)據(jù)項(xiàng)對(duì)整體模型的影響,僅需將其從分片中移除并重新訓(xùn)練該子模型,而非重新訓(xùn)練整體模型(對(duì)于生成式AI,成本過(guò)于昂貴,令人望而卻步)。
最后可考慮篩選或屏蔽方法,在為用戶提供前,顯式對(duì)比生成的內(nèi)容與訓(xùn)練數(shù)據(jù)或其他位置的受保護(hù)內(nèi)容,若相似度高,屏蔽(或替換)。對(duì)任何特定內(nèi)容片段在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù)加以限制,這也有助于減少一字不差的輸出。
目前,正在開(kāi)發(fā)一些使用生成式AI阻止作弊的有趣方法。一種方法是,僅訓(xùn)練模型檢測(cè)指定文本(例如)由人類提供或生成式模型生成。潛在缺點(diǎn)是,這在檢測(cè)模型與生成式AI之間引發(fā)了軍備競(jìng)賽。由于生成式AI的目的是創(chuàng)作由人類合理生成的高質(zhì)量?jī)?nèi)容,因此從長(zhǎng)遠(yuǎn)來(lái)看,目前尚不明確檢測(cè)方法是否有效。
一種有趣的備選方案是,由生成式模型的開(kāi)發(fā)人員自行實(shí)施的水印或指紋識(shí)別方法。例如由于大語(yǔ)言模型在每個(gè)步驟會(huì)從指定文本的后續(xù)詞匯分布中提取,可將候選詞匯分為“紅色”和“綠色”列表,每個(gè)列表的概率約為50%;然后,支持大語(yǔ)言模型僅從綠色列表提取。由于用戶不清楚綠色列表中的單詞,因此他們僅使用從綠色列表提取的10個(gè)詞匯生成語(yǔ)句的概率是?,并提高到10次方,也即大約0.0009。采用此方式,可將全綠色內(nèi)容視為大語(yǔ)言模型生成的虛擬證明。請(qǐng)注意,作為部分服務(wù)產(chǎn)品,大語(yǔ)言模型開(kāi)發(fā)人員需提供此類證明或證書(shū)。
在每個(gè)步驟,模型私下會(huì)自行將可能的后續(xù)詞匯分為綠色和紅色列表。然后,僅從綠色列表采樣后續(xù)詞匯。
對(duì)于生成語(yǔ)句的用戶,他們并不清楚劃分綠色和紅色列表,因此非常有可能選擇混搭綠色和紅色詞匯的次序。由于在長(zhǎng)語(yǔ)句中,人類選擇全綠色次序的可能性幾乎為零,因此可將全綠色語(yǔ)句視作包含由負(fù)責(zé)任的AI生成的證明。
眾所周知,沒(méi)有任何有效的技術(shù)預(yù)防措施可消除對(duì)工作的負(fù)面影響,關(guān)于解決方案的意見(jiàn)分歧存在較大差距。顯而易見(jiàn),在多個(gè)專業(yè)領(lǐng)域中,生成式AI可能是高效的效率工具,至少改變了目前人類與機(jī)器的分工。該技術(shù)也有可能為更廣泛的社區(qū)拓展現(xiàn)有職業(yè)(最近社交媒體出現(xiàn)特定文化但又并不完全荒謬的熱詞是“英語(yǔ)是新編程語(yǔ)言”,這便是對(duì)大語(yǔ)言模型代碼生成能力的認(rèn)可),甚至創(chuàng)造全新的就業(yè)形式,例如提示工程師(現(xiàn)有維基百科條目主題,于今年2月創(chuàng)建)。
最后,我們發(fā)現(xiàn),在生成式AI的生成和安全使用過(guò)程中,最終用戶引導(dǎo)和培訓(xùn)將發(fā)揮關(guān)鍵作用。隨著生成式AI的潛在用途越來(lái)越完善,弊端越來(lái)越得到廣泛理解,用戶也會(huì)利用自己的常識(shí)完善上述的部分預(yù)防措施。
結(jié)論
生成式AI激起了大眾熱烈的討論,也誘發(fā)了合理的恐懼。我們嘗試對(duì)關(guān)切的問(wèn)題開(kāi)展部分調(diào)查,并提出了解決這些問(wèn)題的前瞻性方法。值得強(qiáng)調(diào)的是,在生成式時(shí)代解決負(fù)責(zé)任的AI風(fēng)險(xiǎn)是一個(gè)迭代過(guò)程:不可能一勞永逸。隨著技術(shù)以及我們對(duì)該模型的態(tài)度發(fā)生變化,這種情況肯定也會(huì)相應(yīng)變化;唯一不變的是,必須在熱情與對(duì)關(guān)切問(wèn)題的實(shí)際和有效檢查之間取得平衡。