Bing或ChatGPT可接受用戶詢問回答問題,但研究人員發(fā)現(xiàn),若經(jīng)過結(jié)合第三方網(wǎng)站,這些AI聊天機器人也能被黑客利用執(zhí)行間接攻擊,像是發(fā)送釣魚網(wǎng)站,或讓用戶泄漏其身份資訊。
Bing及ChatGPT為代表的大型語言模型(Large Language Model,LLM)提供的提示窗格,使輸入資料和指令的界線模糊化,若配合狡猾提示,可能使其變?yōu)楣艄ぞ?。目前已?jīng)有些研究利用指令注入(prompt injection,PI)技巧對用戶發(fā)動攻擊,像是產(chǎn)生惡意內(nèi)容或程序代碼,或復(fù)寫原有指令而執(zhí)行惡意企圖。
現(xiàn)有攻擊研究都假設(shè)攻擊者直接對LLM下提示的場景,但方法是將攻擊指令存儲在內(nèi)存緩沖里,難度較高。德國安全研究人員Kai Greshake及其團隊展示,會執(zhí)行檢索(retrieval)及API調(diào)用的LLM(稱為Application Integrated LLM)可被下毒而用作間接執(zhí)行PI攻擊,執(zhí)行難度相對較低。
Greshake及其團隊一項研究披露,間接PI攻擊是利用公開資源,像是可顯示于搜索引擎結(jié)果或社群平臺貼文的網(wǎng)站,或以程序庫導(dǎo)入的程序代碼產(chǎn)生,前者可以是許多用戶訪問的網(wǎng)站如Wikipedia,或是自己設(shè)立的惡意網(wǎng)站。研究人員先是在公開資源秘密注入指令,待用戶使用的LLM(如Bing Chat或ChatGPT)檢索這些資源時進行下毒。利用LLM的社交工程(如對話)能力,可引導(dǎo)用戶泄漏隱私,例如自己的姓名。研究人員說,這種攻擊手法可用于國家企圖追查報道爭議事件的記者或是吹哨者身份。
這種間接攻擊中,攻擊者也可以修改自己設(shè)置的網(wǎng)站,以更新指令,或是遠程控制LLM。此外,研究人員還提出,可以提示包在電子郵件中,送入自動化垃圾郵件偵測或個人助理模型,則能化被動為主動,將提示主動注入LLM。
研究人員示范對Bing Chat進行的間接指令注入攻擊。方法是攻擊者設(shè)立目標用戶會訪問的惡意網(wǎng)站,注入字級大小為0的提示,當(dāng)目標用戶和Bing Chat對話時,Bing Chat就能處理這個提示,設(shè)法讓用戶吐露自己身份。在其示范例子中,研究人員以海盜版Bing吸引用戶好奇,并誘使用戶提供自己的姓名,或發(fā)送URL讓用戶填寫。
目前研究人員尚未能將其研究付諸真實網(wǎng)站或模型測試,不過已選定一個使用大型GPT模型的合成應(yīng)用程序。此外,LLM主動詢問姓名可能會讓一般用戶起疑,但研究人員表示,就和所有社交工程攻擊一樣,用戶可能會在警戒心降低時上鉤。