Cloudflare近期宣布已開(kāi)發(fā)了Firewall for AI(用于人工智能的防火墻),作為部署在大語(yǔ)言模型(LLM)前的保護(hù)層,用于識(shí)別和防止濫用模型的行為。
隨著AI模型,特別是大型語(yǔ)言模型的快速發(fā)展,客戶告訴我們,他們?cè)絹?lái)越關(guān)注能夠有效保護(hù)自有LLM的最佳安全策略-在接入互聯(lián)網(wǎng)的應(yīng)用程序中使用LLM會(huì)引入新的漏洞,可能會(huì)被不法分子所利用。
一些影響傳統(tǒng)網(wǎng)站和API應(yīng)用程序的漏洞也同樣會(huì)適用于LLM領(lǐng)域,包括注入或數(shù)據(jù)泄露。同時(shí),由于LLM的運(yùn)作方式,也隨之出現(xiàn)了一系列全新威脅。例如,研究人員最近在一個(gè)AI協(xié)作平臺(tái)中發(fā)現(xiàn)了一個(gè)漏洞,允許被利用來(lái)劫持模型并執(zhí)行未經(jīng)授權(quán)的操作。
Firewall for AI是一個(gè)高級(jí)的Web應(yīng)用程序防火墻(WAF),專為使用LLM的應(yīng)用程序量身定制。其中將包括一組工具,供部署在應(yīng)用程序前面,以檢測(cè)漏洞并為模型所有者提供可見(jiàn)性。這個(gè)工具包包括既有WAF已經(jīng)涵蓋的一部分產(chǎn)品,如速率限制和敏感數(shù)據(jù)檢測(cè),以及一個(gè)目前正在開(kāi)發(fā)中的全新保護(hù)層。這一全新驗(yàn)證功能將分析最終用戶提交的提示詞,以識(shí)別利用模型提取數(shù)據(jù)的企圖和其他濫用嘗試。通過(guò)利用Cloudflare的全球網(wǎng)絡(luò)規(guī)模,F(xiàn)irewall for AI在盡可能靠近用戶的地方運(yùn)行,使我們能夠提前發(fā)現(xiàn)攻擊,同時(shí)保護(hù)最終用戶和模型免受濫用和攻擊。
在深入介紹Firewall for AI如何運(yùn)作及其完整功能集之前,讓我們首先看一下LLM的獨(dú)特之處,以及它們引入的攻擊面。我們將使用OWASP LLM應(yīng)用程序十大風(fēng)險(xiǎn)作為參考。
為什么LLM不同于傳統(tǒng)應(yīng)用程序?
在考慮基于LLM的互聯(lián)網(wǎng)應(yīng)用程序時(shí),與傳統(tǒng)Web應(yīng)用程序相比,有兩個(gè)主要區(qū)別:
第一是用戶與產(chǎn)品交互的方式。傳統(tǒng)應(yīng)用程序本質(zhì)上確定性的。以銀行應(yīng)用程序?yàn)槔?,它是由一系列操作定義的(查看我的余額,進(jìn)行轉(zhuǎn)賬等)。通過(guò)控制這些端點(diǎn)接受的一組具體操作:“GET/balance”或“POST/transfer”,即可確保業(yè)務(wù)操作(和數(shù)據(jù))的安全性。
LLM操作在設(shè)計(jì)上就是非確定性的。首先,LLM交互基于自然語(yǔ)言,這使得識(shí)別有問(wèn)題的請(qǐng)求比匹配攻擊特性更為困難。此外,除非響應(yīng)被緩存,大語(yǔ)言模型通常每次都會(huì)提供不同的響應(yīng)——即使重復(fù)相同的輸入提示。因此,限制用戶與應(yīng)用程序互動(dòng)的方式要困難得多。這也對(duì)用戶構(gòu)成了威脅,因?yàn)橛脩艨赡軙?huì)接觸到錯(cuò)誤的信息,從而削弱對(duì)模型的信任。
其次,一個(gè)重大區(qū)別是應(yīng)用程序控制平面與數(shù)據(jù)交互的方式。在傳統(tǒng)應(yīng)用程序中,控制平面(代碼)與數(shù)據(jù)平面(數(shù)據(jù)庫(kù))是明顯分離的。定義的操作是與底層數(shù)據(jù)交互的唯一方式(例如顯示我的支付交易歷史記錄)。這允許安全從業(yè)者可以專注于為控制平面添加檢查和防護(hù)措施,從而間接地保護(hù)數(shù)據(jù)庫(kù)。
LLM的不同之處在于,訓(xùn)練數(shù)據(jù)通過(guò)訓(xùn)練過(guò)程成為模型本身的一部分,因而極難控制在作為用戶提示的結(jié)果中的數(shù)據(jù)共享方式。人們正在探索一些架構(gòu)性解決方案,例如將LLM分成不同的層級(jí)并隔離數(shù)據(jù)。然而,快速有效的解決方案還未找到。
從安全角度來(lái)看,這些差異允許攻擊者設(shè)計(jì)針對(duì)LLM的全新攻擊手段,繞開(kāi)為傳統(tǒng)網(wǎng)絡(luò)應(yīng)用程序設(shè)計(jì)的現(xiàn)有安全工具的監(jiān)測(cè)。
OWASP LLM漏洞
OWASP基金會(huì)發(fā)布了LLM十大漏洞清單,為考慮如何保護(hù)語(yǔ)言模型提供了一個(gè)有用的框架。其中一些威脅類似于OWASP的Web應(yīng)用程序十大漏洞,另一些則是語(yǔ)言模型所特有的。
類似于Web應(yīng)用程序,其中一些漏洞在LLM應(yīng)用程序設(shè)計(jì)、開(kāi)發(fā)和訓(xùn)練時(shí)就予以解決效果最佳。例如,訓(xùn)練數(shù)據(jù)投毒可在用于訓(xùn)練新模型的數(shù)據(jù)集中引入漏洞。當(dāng)模型上線時(shí),有害的信息就會(huì)呈現(xiàn)給用戶。供應(yīng)鏈漏洞和不安全的插件設(shè)計(jì)是添加到模型的組件(如第三方軟件包)中引入的漏洞。最后,處理過(guò)度代理時(shí),管理授權(quán)和權(quán)限至關(guān)重要,因?yàn)椴皇芗s束的模型可能在更廣泛的應(yīng)用程序或基礎(chǔ)設(shè)施中執(zhí)行未經(jīng)授權(quán)的操作。
相反,通過(guò)采用像Cloudflare Firewall for AI這樣的代理安全解決方案,可以緩解提示詞注入、模型拒絕服務(wù)和敏感數(shù)據(jù)泄露等漏洞。接下來(lái),我們將提供有關(guān)這些漏洞的更多細(xì)節(jié),并討論Cloudflare如何具備緩解這些風(fēng)險(xiǎn)的最佳優(yōu)勢(shì)。
LLM部署
語(yǔ)言模型的風(fēng)險(xiǎn)也取決于部署方式。目前,我們看到三種主要的部署方法:內(nèi)部、公共和產(chǎn)品LLM。以上三種情況下,您都需要保護(hù)模型免受濫用,保護(hù)模型中存儲(chǔ)的任何專有數(shù)據(jù),并保護(hù)最終用戶免受錯(cuò)誤信息或不當(dāng)內(nèi)容的影響。
-內(nèi)部LLM:公司開(kāi)發(fā)LLM以支持員工的日常任務(wù)。這些模型被視為企業(yè)資產(chǎn),不應(yīng)該被非員工訪問(wèn)。例如,一個(gè)以銷售數(shù)據(jù)和客戶交互訓(xùn)練的AI co-pilot用于生成定制化提案,或者一個(gè)以內(nèi)部知識(shí)庫(kù)訓(xùn)練的LLM供工程師進(jìn)行查詢。
-公共LLM:這些是可以在公司邊界之外訪問(wèn)的LLM。這些解決方案通常提供任何人都可以使用的免費(fèi)版本,它們通常是使用一般或公共知識(shí)訓(xùn)練的。例如OpenAI的GPT或Anthropic的Claude。
-產(chǎn)品LLM:從企業(yè)角度看,LLM可以成為提供給客戶的產(chǎn)品或服務(wù)的一部分。這些通常是自托管的、定制化的解決方案,可以由作為與公司資源互動(dòng)的工具提供。例如客戶支持聊天機(jī)器人或Cloudflare AI Assistant。
從風(fēng)險(xiǎn)角度來(lái)看,產(chǎn)品和公共LLM之間的區(qū)別在于哪個(gè)會(huì)直接承受惡意攻擊帶來(lái)的影響。公共LLM被認(rèn)為威脅到數(shù)據(jù),因?yàn)樽罱K進(jìn)入模型的數(shù)據(jù)可以被幾乎任何人訪問(wèn)。這就是許多公司建議員工不要在公開(kāi)可用服務(wù)的提示中使用保密信息的原因之一。如果模型在訓(xùn)練過(guò)程中(按照設(shè)計(jì)或意外地)訪問(wèn)了專有信息,產(chǎn)品LLM可以被視為對(duì)公司及其知識(shí)產(chǎn)權(quán)的威脅。
Firewall for AI
Cloudflare Firewall for AI將如同傳統(tǒng)WAF一樣部署,對(duì)每一個(gè)帶有LLM提示的API請(qǐng)求進(jìn)行掃描,以尋找潛在攻擊的模式和特征。
Firewall for AI可部署托管于Cloudflare Workers AI平臺(tái)的模型前面,或者托管于任何第三方基礎(chǔ)設(shè)施上的模型前面。它可以與Cloudflare AI Gateway一起使用,客戶將能使用WAF控制平面來(lái)控制和設(shè)置Firewall for AI。
Firewall for AI的工作方式類似于傳統(tǒng)的Web應(yīng)用程序防火墻。它部署在LLM應(yīng)用程序前面,并掃描每個(gè)請(qǐng)求以識(shí)別攻擊特征。
防止容量耗盡攻擊
OWASP列出的威脅之一是模型拒絕服務(wù)攻擊。類似于傳統(tǒng)應(yīng)用程序,DoS攻擊是通過(guò)消耗異常大量的資源來(lái)執(zhí)行的,這會(huì)導(dǎo)致服務(wù)質(zhì)量降低或可能增加模型運(yùn)行成本。鑒于LLM運(yùn)行所需的資源量和用戶輸入的不可預(yù)測(cè)性,這種類型的攻擊可能會(huì)造成破壞。
通過(guò)采用速率限制策略來(lái)控制單個(gè)會(huì)話的請(qǐng)求速率,從而控制上下文窗口,可以緩解這種風(fēng)險(xiǎn)。通過(guò)Cloudflare代理您的模型,您將獲得開(kāi)箱即用的DDoS防護(hù)。您還可以使用速率限制和高級(jí)速率限制,通過(guò)設(shè)置會(huì)話期間單個(gè)IP地址或API密鑰執(zhí)行的請(qǐng)求的最大速率,以管理對(duì)模型的請(qǐng)求速率。
通過(guò)敏感數(shù)據(jù)檢測(cè)功能識(shí)別敏感信息
有兩種適用于敏感數(shù)據(jù)的用例,取決于您是否擁有模型和數(shù)據(jù),還是想要防止用戶將數(shù)據(jù)發(fā)送到公共LLM。
根據(jù)OWASP的定義,敏感數(shù)據(jù)泄露是指LLM無(wú)意中在響應(yīng)中透露了機(jī)密數(shù)據(jù),導(dǎo)致未經(jīng)授權(quán)的數(shù)據(jù)訪問(wèn)、隱私侵犯和安全漏洞。防止這種情況的一種方法是添加嚴(yán)格的提示驗(yàn)證。另一種方法是在個(gè)人身份信息(PII)離開(kāi)模型時(shí)予以識(shí)別。一種相關(guān)的情況是當(dāng)模型是使用公司知識(shí)庫(kù)訓(xùn)練時(shí),其中可能包含敏感信息,例如PII(如社會(huì)安全號(hào)碼)、專有代碼或算法。
客戶使用位于Cloudflare WAF后面的LLM模型時(shí),可以使用敏感數(shù)據(jù)檢測(cè)(SDD)WAF托管規(guī)則集來(lái)識(shí)別模型在響應(yīng)中返回的特定PII。客戶可以在WAF安全事件中查看SDD匹配項(xiàng)。SDD以一套托管規(guī)則的形式提供,設(shè)計(jì)為掃描財(cái)務(wù)信息(例如信用卡號(hào))以及機(jī)密(API密鑰)。作為路線圖的一部分,我們計(jì)劃允許客戶創(chuàng)建自己的自定義指紋。
另一個(gè)用例旨在防止用戶與外部LLM提供商(例如OpenAI或Anthropic)共享PII或其他敏感信息。為了防范這種情況,我們計(jì)劃擴(kuò)展SDD以掃描請(qǐng)求提示,并將其輸出與AI Gateway集成,在那里,依據(jù)請(qǐng)求的歷史記錄,我們會(huì)檢測(cè)請(qǐng)求中是否包含特定敏感數(shù)據(jù)。我們將從使用現(xiàn)有的SDD規(guī)則開(kāi)始,并計(jì)劃允許客戶編寫自己的自定義特征。與此相關(guān)的,我們還聽(tīng)到很多客戶談?wù)摰牧硪粋€(gè)功能是混淆。一旦可用,擴(kuò)展的SDD將允許客戶在提示詞到達(dá)模型之前,混淆特定敏感數(shù)據(jù)。對(duì)應(yīng)請(qǐng)求階段的SDD正在開(kāi)發(fā)中。
防止模型濫用
模型濫用是一種更為廣泛類型的濫用。其中包括像“提示詞注入”的方法,即提交的請(qǐng)求讓模型產(chǎn)生幻覺(jué),或?qū)е虏粶?zhǔn)確、冒犯性、不適當(dāng)或完全偏離主題的響應(yīng)。
提示詞注入是通過(guò)特別構(gòu)造的輸入來(lái)操縱語(yǔ)言模型的一種嘗試,導(dǎo)致LLM產(chǎn)生非預(yù)期的回應(yīng)。注入會(huì)產(chǎn)生各種結(jié)果,從提取敏感信息到通過(guò)模仿與模型的正?;?dòng)來(lái)影響決策。提示詞注入的一個(gè)經(jīng)典例子是操縱簡(jiǎn)歷以影響簡(jiǎn)歷篩選工具的輸出。
從我們的AI Gateway客戶處聽(tīng)到的一個(gè)常見(jiàn)用例是,他們想要避免應(yīng)用程序產(chǎn)生有毒、冒犯性和有問(wèn)題的語(yǔ)言。不對(duì)模型的結(jié)果進(jìn)行控制的風(fēng)險(xiǎn)包括聲譽(yù)損害和通過(guò)提供不可靠的回應(yīng)而損害最終用戶。
通過(guò)在模型前面增加一個(gè)額外的保護(hù)層,可以管理這些類型的濫用。這一保護(hù)層可以被訓(xùn)練用來(lái)阻止注入嘗試或阻擋那些屬于不適當(dāng)類別的提示詞。
提示詞和響應(yīng)驗(yàn)證
Cloudflare Firewall for AI將運(yùn)行一系列檢測(cè),旨在識(shí)別提示詞注入嘗試和其他濫用行為,比如確保主題停留在模型所有者定義的邊界內(nèi)。就像其他現(xiàn)有的WAF功能一樣,F(xiàn)irewall for AI將自動(dòng)尋找HTTP請(qǐng)求中嵌入的提示詞,或允許客戶根據(jù)在請(qǐng)求的JSON主體中可以找到提示詞的位置來(lái)創(chuàng)建規(guī)則。
一旦啟用,防火墻將分析每個(gè)提示詞并根據(jù)其是惡意的可能性提供一個(gè)評(píng)分。它還會(huì)根據(jù)預(yù)定義的類別對(duì)提示詞進(jìn)行標(biāo)記。評(píng)分范圍從1到99,代表提示詞注入的可能性,1表示最有可能。
客戶將能夠創(chuàng)建WAF規(guī)則,以阻止或處理在一個(gè)或兩個(gè)維度中具有特定評(píng)分的請(qǐng)求。您將能夠?qū)⑦@一評(píng)分與其他現(xiàn)有信號(hào)(例如機(jī)器人評(píng)分或攻擊評(píng)分)結(jié)合起來(lái),以確定應(yīng)該允許請(qǐng)求到達(dá)模型,還是應(yīng)該予以阻止。例如,可以將之與機(jī)器人評(píng)分結(jié)合使用,以識(shí)別請(qǐng)求是否惡意及是否由自動(dòng)化來(lái)源產(chǎn)生。
檢測(cè)提示詞注入和提示詞濫用是Firewall for AI范圍的一部分。產(chǎn)品設(shè)計(jì)的早期迭代。
除了評(píng)分外,我們還將為每個(gè)提示詞分配標(biāo)記,這些標(biāo)記可在創(chuàng)建規(guī)則時(shí)使用,以防止屬于這些類別中的任一提示詞到達(dá)其模型。例如,客戶將能夠創(chuàng)建規(guī)則以阻止特定主題。例如,使用攻擊性詞匯,或與宗教、性內(nèi)容或政治相關(guān)的詞匯。
如何能夠使用Firewall for AI?
已經(jīng)在使用Application Security Advanced的Enterprise客戶可立即開(kāi)始使用高級(jí)速率限制和敏感數(shù)據(jù)檢測(cè)(響應(yīng)階段)功能。這兩個(gè)產(chǎn)品都位于Cloudflare儀表板的WAF部分。Firewall for AI的提示詞驗(yàn)證功能目前正在開(kāi)發(fā)中,測(cè)試版將在未來(lái)幾個(gè)月內(nèi)向所有Workers AI用戶開(kāi)放。
總結(jié)
Cloudflare是率先推出AI應(yīng)用程序保護(hù)工具套件的安全提供商之一。通過(guò)使用Cloudflare Firewall for AI,客戶可以控制哪些提示詞和請(qǐng)求可以到達(dá)他們的語(yǔ)言模型,從而減少濫用和數(shù)據(jù)泄露的風(fēng)險(xiǎn)。
Cloudflare保護(hù)整個(gè)企業(yè)網(wǎng)絡(luò),幫助客戶高效構(gòu)建互聯(lián)網(wǎng)規(guī)模的應(yīng)用程序,加速任何網(wǎng)站或互聯(lián)網(wǎng)應(yīng)用程序,抵御DDoS攻擊,防止黑客入侵,并能協(xié)助您實(shí)現(xiàn)Zero Trust的部署與實(shí)施。