新功能:讓您可以按需且獨(dú)立自主地使用AI:一鍵阻止AI機(jī)器人、抓取工具和爬網(wǎng)程序

來源:Cloudflare
作者:Cloudflare
時(shí)間:2024-08-15
2958
為了幫助內(nèi)容創(chuàng)作者維護(hù)安全的互聯(lián)網(wǎng)環(huán)境,Cloudflare剛剛推出了一個(gè)全新的“簡(jiǎn)易按鈕”用于阻止所有AI機(jī)器人。它適用于所有客戶,包括使用免費(fèi)套餐的客戶。

41B4023D-6304-4599-AA51-2923D18701AB.png

為了幫助內(nèi)容創(chuàng)作者維護(hù)安全的互聯(lián)網(wǎng)環(huán)境,Cloudflare剛剛推出了一個(gè)全新的“簡(jiǎn)易按鈕”用于阻止所有AI機(jī)器人。它適用于所有客戶,包括使用免費(fèi)套餐的客戶。

隨著生成式AI的普及,導(dǎo)致對(duì)用于訓(xùn)練模型或運(yùn)行推理的內(nèi)容需求激增。盡管一些AI公司明確標(biāo)識(shí)了其Web抓取機(jī)器人,但并非所有AI公司都保持透明。據(jù)報(bào)道,Google每年支付6000萬美元以獲得Reddit用戶生成內(nèi)容的使用許可;斯嘉麗·約翰遜(Scarlett Johansson)指控OpenAI在未經(jīng)她本人同意的情況下,將她的聲音用于新款個(gè)人助理;以及最近,Perplexity被指控假冒合法訪客從網(wǎng)站上抓取內(nèi)容。大量原創(chuàng)內(nèi)容的價(jià)值空前高漲。

去年,Cloudflare宣布客戶能夠輕松阻止符合規(guī)范的AI機(jī)器人。這些機(jī)器人遵守robots.txt協(xié)議,且不使用未經(jīng)許可的內(nèi)容來訓(xùn)練模型或使用網(wǎng)站數(shù)據(jù)為RAG應(yīng)用程序運(yùn)行推理。雖然這些AI機(jī)器人遵守規(guī)則,但是Cloudflare客戶絕大多數(shù)情況下選擇阻止它們。

D2A28C5D-4376-4D49-B405-49A256F9ABA9.jpeg

我們清楚地了解到,客戶表示不希望AI機(jī)器人訪問其網(wǎng)站,尤其是那些通過非法方式訪問網(wǎng)站的AI機(jī)器人。為此,我們?cè)黾恿艘粋€(gè)全新的一鍵按鈕,具備阻止所有AI機(jī)器人的功能。它適用于所有客戶,包括使用免費(fèi)套餐的客戶。若要啟用此功能,只需導(dǎo)航到Cloudflare儀表板的“安全性”>“機(jī)器人”部分,然后單擊標(biāo)有“AI抓取工具和爬網(wǎng)程序”的切換按鈕。

8AF2EA9A-2A12-45CB-888A-1DFD9C02AA8F.jpeg

我們識(shí)別機(jī)器人廣泛抓取網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行模型訓(xùn)練,隨著我們?cè)絹碓搅私膺`規(guī)機(jī)器人的新特征,將逐步自動(dòng)更新此功能。為確保全面了解所有AI爬網(wǎng)程序活動(dòng),我們調(diào)查了整個(gè)網(wǎng)絡(luò)的流量情況。

如今的AI機(jī)器人活動(dòng)

下圖顯示了按請(qǐng)求數(shù)量統(tǒng)計(jì)的Cloudflare網(wǎng)絡(luò)上最熱門的AI機(jī)器人。我們研究了常見的AI爬網(wǎng)程序用戶代理,然后匯總了過去一年當(dāng)中這些AI用戶代理向Cloudflare平臺(tái)發(fā)出的請(qǐng)求數(shù)量:

BE606016-B138-48DE-AC12-72987BF268FC.png

從向Cloudflare站點(diǎn)發(fā)出的請(qǐng)求數(shù)量來看,我們發(fā)現(xiàn),Bytespider、Amazonbot、ClaudeBot和GPTBot是排名前四的AI爬網(wǎng)程序。據(jù)報(bào)道,Bytespider由TikTok的母公司字節(jié)跳動(dòng)運(yùn)營(yíng),用于為大型語(yǔ)言模型(LLM)收集訓(xùn)練數(shù)據(jù),包括為其對(duì)標(biāo)ChatGPT的競(jìng)品——豆包提供支持。Amazonbot和ClaudeBot的請(qǐng)求數(shù)量緊隨Bytespider之后。據(jù)報(bào)道,Amazonbot發(fā)送的請(qǐng)求數(shù)量位居第二,用于為Alexa問答系統(tǒng)編制內(nèi)容索引;ClaudeBot的請(qǐng)求數(shù)量最近有所增加,用于訓(xùn)練Claude聊天機(jī)器人。

我們看到,在這些最流行的AI機(jī)器人中,Bytespider在請(qǐng)求數(shù)量,以及互聯(lián)網(wǎng)資產(chǎn)的爬取范圍和阻止頻率方面均遙遙領(lǐng)先。緊隨其后的是GPTBot,它在爬取范圍和阻止頻率方面均排名第二。GPTBot由OpenAI管理,負(fù)責(zé)為其LLM收集訓(xùn)練數(shù)據(jù),而LLM則為ChatGPT等人工智能驅(qū)動(dòng)型產(chǎn)品提供支持。下表中“訪問網(wǎng)站的比例”是指這些指定的AI機(jī)器人所訪問的受到Cloudflare保護(hù)的網(wǎng)站所占比例。

FD4E5819-3FB1-46E2-9E49-C7CFA2E82105.jpeg

雖然我們的分析確定了在請(qǐng)求數(shù)量和訪問的互聯(lián)網(wǎng)資產(chǎn)數(shù)量方面最熱門的爬網(wǎng)程序,但是許多客戶可能沒有意識(shí)到更熱門的AI爬網(wǎng)程序正在積極抓取其網(wǎng)站數(shù)據(jù)。我們的Radar團(tuán)隊(duì)分析了前10,000個(gè)互聯(lián)網(wǎng)域中排名靠前的robots.txt條目,以確定最常見的AI機(jī)器人;查看了在受Cloudflare保護(hù)的網(wǎng)站上看到這些機(jī)器人的頻率。

下圖顯示了這些網(wǎng)站禁止使用的爬網(wǎng)程序。我們看到,客戶在robots.txt中經(jīng)常引用GPTBot、CCBot和Google,但并沒有明確禁止使用Bytespider和ClaudeBot等熱門的AI爬網(wǎng)程序。

E1DFBEB9-243E-4D11-A90C-D43B0F3C7E0C.jpeg

現(xiàn)如今,互聯(lián)網(wǎng)上充斥著上述這些AI機(jī)器人,我們很想知道,網(wǎng)站運(yùn)營(yíng)商如何應(yīng)對(duì)這種局面。6月,AI機(jī)器人訪問的前一百萬個(gè)使用Cloudflare的互聯(lián)網(wǎng)資產(chǎn)約占39%,但是,其中只有2.98%的網(wǎng)站采取了相關(guān)措施來阻止或質(zhì)疑這些請(qǐng)求。此外,互聯(lián)網(wǎng)資產(chǎn)的排名越高(越熱門),越有可能成為AI機(jī)器人的訪問目標(biāo);相應(yīng)地,阻止此類請(qǐng)求的可能性就越大。

FF7358B6-5862-44F8-AFE0-13E1978C34FC.jpeg

4F547234-4E83-4D8C-91CA-7C7F9842AC7D.jpeg

我們看到,網(wǎng)站運(yùn)營(yíng)商使用robots.txt完全阻止這些AI爬網(wǎng)程序訪問其網(wǎng)站。然而,此類阻止依賴于機(jī)器人運(yùn)營(yíng)商遵守robots.txt協(xié)議且遵守RFC9309規(guī)則(確保用戶所有要素的變化與產(chǎn)品令牌匹配),在訪問互聯(lián)網(wǎng)資產(chǎn)時(shí)如實(shí)地表明自己的身份;但另一方面,更改用戶代理對(duì)機(jī)器人運(yùn)營(yíng)商來說不費(fèi)吹灰之力。

我們?nèi)绾伟l(fā)現(xiàn)冒充真實(shí)Web瀏覽器的AI機(jī)器人

遺憾的是,我們觀察到機(jī)器人運(yùn)營(yíng)商嘗試使用偽造的用戶代理來偽裝成真實(shí)的瀏覽器。我們長(zhǎng)期以來一直在監(jiān)測(cè)這一類活動(dòng),我們可以自豪地說,Cloudflare全球機(jī)器學(xué)習(xí)模型始終能夠?qū)⒋祟惢顒?dòng)識(shí)別為機(jī)器人訪問,即便運(yùn)營(yíng)商嘗試使用偽造的用戶代理也能識(shí)別。

以其他公司觀察到的隱藏其真實(shí)活動(dòng)的特定機(jī)器人為例。我們進(jìn)行了一項(xiàng)分析,以了解Cloudflare機(jī)器學(xué)習(xí)模型如何對(duì)源自這個(gè)機(jī)器人的流量評(píng)分。如下圖所示,所有機(jī)器人分?jǐn)?shù)都低于30,這表明我們的評(píng)分機(jī)制認(rèn)為這很可能是機(jī)器人活動(dòng)。

此圖反映了使用Cloudflare最新模型對(duì)眾多請(qǐng)求的評(píng)分,其中“更熱”的顏色表示處于該范圍內(nèi)的請(qǐng)求數(shù)量更多,而“更冷”的顏色則表示處于該范圍內(nèi)的請(qǐng)求數(shù)量更少。我們可以看到,絕大多數(shù)請(qǐng)求落入了底部的兩個(gè)范圍,這表明Cloudflare的模型給違規(guī)機(jī)器人的分?jǐn)?shù)為9分或更低。更改用戶代理(我們預(yù)計(jì)這是機(jī)器人運(yùn)營(yíng)商會(huì)做的第一件事)對(duì)分?jǐn)?shù)沒有任何影響。

07351AAB-5C2A-4141-AA71-489C8667B325.jpeg

如果客戶使用現(xiàn)有WAF規(guī)則集來質(zhì)疑機(jī)器人分?jǐn)?shù)低于30的訪客(我們建議的做法),則系統(tǒng)會(huì)自動(dòng)阻止所有此類AI機(jī)器人流量,無需客戶執(zhí)行任何新操作。對(duì)于使用類似技術(shù)來隱藏其活動(dòng)的未來AI機(jī)器人,也是如此。

我們利用Cloudflare全局信號(hào)來計(jì)算上文所述的AI機(jī)器人的機(jī)器人分?jǐn)?shù),這反映了我們可以正確識(shí)別并將其評(píng)分為“可能的機(jī)器人”。

當(dāng)惡意行為者嘗試大規(guī)模抓取網(wǎng)站內(nèi)容時(shí),他們通常會(huì)使用我們能夠識(shí)別的工具和框架。對(duì)于看到的每種特征,我們會(huì)使用Cloudflare網(wǎng)絡(luò)來了解我們應(yīng)該在多大程度上信任這種特征。Cloudflare網(wǎng)絡(luò)平均每秒處理超過5700萬個(gè)請(qǐng)求。為了支持Cloudflare模型,我們匯總計(jì)算了許多全局信號(hào)。Cloudflare模型能夠根據(jù)這些信號(hào),適當(dāng)?shù)貙⒃醋砸?guī)避型AI機(jī)器人的流量(如前文所述的例子)標(biāo)記為機(jī)器人。

這些匯總的全局?jǐn)?shù)據(jù)帶來的結(jié)果就是,我們可以立即檢測(cè)新的抓取工具及其行為,無需手動(dòng)標(biāo)記機(jī)器人特征,從而確保客戶免受最新一波機(jī)器人活動(dòng)的影響。

如果您有關(guān)于AI機(jī)器人異常行為的密報(bào),我們很樂意進(jìn)行調(diào)查。您可以使用如下兩個(gè)選項(xiàng)來報(bào)告行為不當(dāng)?shù)腁I爬網(wǎng)程序:

1.“企業(yè)級(jí)機(jī)器人管理”客戶只需通過“機(jī)器人分析”,選擇自己發(fā)現(xiàn)的不當(dāng)行為的流量段,提交漏報(bào)反饋循環(huán)報(bào)告:

648FD4AE-F6CA-452F-A29A-6539DDA47E25.jpeg

2.我們還設(shè)置了一個(gè)報(bào)告工具,可供所有Cloudflare客戶提交關(guān)于AI機(jī)器人未經(jīng)許可抓取您網(wǎng)站內(nèi)容的報(bào)告。

我們擔(dān)心某些企圖規(guī)避規(guī)則來訪問內(nèi)容的AI公司會(huì)不斷適應(yīng),達(dá)到逃避機(jī)器人檢測(cè)的目的。我們會(huì)繼續(xù)密切關(guān)注并將更多機(jī)器人阻止規(guī)則添加到AI抓取工具和爬網(wǎng)程序,同時(shí)逐步發(fā)展我們的機(jī)器學(xué)習(xí)模型,幫助將互聯(lián)網(wǎng)建設(shè)成為內(nèi)容創(chuàng)作者可以放心施展才華的平臺(tái),并同時(shí)可以完全控制哪些模型可以使用其內(nèi)容來進(jìn)行訓(xùn)練或運(yùn)行推理。

立即登錄,閱讀全文
AI
原文鏈接:點(diǎn)擊前往 >
文章來源:Cloudflare
版權(quán)說明:本文內(nèi)容來自于Cloudflare,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家