網(wǎng)站所有者一直無(wú)法確定AI服務(wù)如何使用他們的內(nèi)容進(jìn)行訓(xùn)練或其他用途。為此,Cloudflare發(fā)布了一套工具,旨在幫助網(wǎng)站擁有者、創(chuàng)作者和出版商重新掌控他們的內(nèi)容如何提供給與AI相關(guān)的機(jī)器人和爬蟲(chóng)。所有Cloudflare客戶現(xiàn)在都可以審核和控制AI模型如何訪問(wèn)其站點(diǎn)上的內(nèi)容。
首先是一個(gè)詳細(xì)的分析視圖,展示了爬取您網(wǎng)站的AI服務(wù)以及它們?cè)L問(wèn)的具體內(nèi)容??蛻艨梢园碅I提供商、機(jī)器人類型查看活動(dòng),以及網(wǎng)站的哪些部分最受歡迎。Cloudflare上的每個(gè)站點(diǎn)都可以使用這些數(shù)據(jù),并且不需要任何配置。
我們希望這種新級(jí)別的可見(jiàn)性能促使團(tuán)隊(duì)決定是否將內(nèi)容暴露給AI爬蟲(chóng)。為了給他們提供做出決定的時(shí)間,Cloudflare現(xiàn)已在儀表板中提供了一鍵選項(xiàng),可以即刻阻止任何AI爬蟲(chóng)訪問(wèn)任何站點(diǎn)。團(tuán)隊(duì)可利用這個(gè)“暫停窗口期”來(lái)決定是否允許特定的AI提供商或哪些類型的機(jī)器人繼續(xù)訪問(wèn)。一旦做出決定,管理員只需點(diǎn)擊幾下鼠標(biāo),就可以使用Cloudflare儀表板中的新過(guò)濾器實(shí)施這些策略。
一些客戶已經(jīng)決定直接與AI公司談判以達(dá)成協(xié)議。這些合同中的很多都包含了關(guān)于掃描頻率和可訪問(wèn)內(nèi)容類型的條款。我們希望這些發(fā)布者擁有工具來(lái)進(jìn)一步衡量這些協(xié)議的具體實(shí)施情況。作為本次更新發(fā)布的一部分,Cloudflare客戶現(xiàn)在可以一鍵生成報(bào)告,用于審計(jì)這些協(xié)議中允許的活動(dòng)。
同時(shí),我們也認(rèn)為任何規(guī)模的網(wǎng)站都應(yīng)該能夠針對(duì)AI模型使用其內(nèi)容設(shè)定合理的相應(yīng)“就地取材”的補(bǔ)償。所以,本次更新的公告也包括一項(xiàng)新的Cloudflare變現(xiàn)功能:該功能將為網(wǎng)站擁有者提供就對(duì)其內(nèi)容的掃描設(shè)置價(jià)格、控制訪問(wèn)和獲取價(jià)值的工具。
當(dāng)下所面臨的問(wèn)題是什么?
互聯(lián)網(wǎng)上的機(jī)器人和爬蟲(chóng)大致分為兩類:好和壞。好的機(jī)器人,比如搜索引擎爬蟲(chóng),幫助用戶發(fā)現(xiàn)您的網(wǎng)站并為您帶來(lái)流量。而壞的機(jī)器人會(huì)嘗試破壞您的網(wǎng)站,搶在客戶前面排隊(duì),或者抓取競(jìng)爭(zhēng)數(shù)據(jù)。我們?yōu)榇舜蛟斓腃loudflare Bot Management平臺(tái),讓您能夠區(qū)分這兩大類機(jī)器人,并可以根據(jù)情況設(shè)置為允許或阻止它們。
人工智能大型語(yǔ)言模型(LLM)和其他生成式工具的興起創(chuàng)造了更加模糊的第三類。不同于惡意機(jī)器人,與這些平臺(tái)相關(guān)的爬蟲(chóng)不會(huì)積極嘗試使您的網(wǎng)站下線或妨礙您的客戶;也并不會(huì)試圖竊取敏感數(shù)據(jù);它們只想瀏覽您網(wǎng)站上已經(jīng)公開(kāi)的內(nèi)容。
然而,與有用的機(jī)器人不同,這些與AI相關(guān)的爬蟲(chóng)不一定會(huì)為您的網(wǎng)站帶來(lái)流量。AI Data Scraper(人工智能數(shù)據(jù)抓取)機(jī)器人掃描您網(wǎng)站上的內(nèi)容以訓(xùn)練新的LLM。然后,您的內(nèi)容會(huì)被放入一種混合器中與其他內(nèi)容混合在一起,并用于回答用戶問(wèn)題,不會(huì)注明來(lái)源,也不需要用戶訪問(wèn)您的網(wǎng)站。另一種爬蟲(chóng)是AI Search Crawler(人工智能搜索爬蟲(chóng))機(jī)器人,它們會(huì)掃描您的內(nèi)容,并在響應(yīng)用戶的搜索時(shí)嘗試進(jìn)行引用。缺點(diǎn)是那些用戶可能僅停留在該界面內(nèi),而不會(huì)訪問(wèn)您的網(wǎng)站,因?yàn)榇鸢敢呀?jīng)在他們面前的頁(yè)面上匯總了。
這種模糊性讓網(wǎng)站擁有者面臨一個(gè)艱難的決定-價(jià)值交換不明確。而且網(wǎng)站擁有者在追趕的過(guò)程中處于劣勢(shì)。許多網(wǎng)站允許這些AI爬蟲(chóng)掃描其內(nèi)容,因?yàn)樗鼈冊(cè)诖蠖鄶?shù)情況下看起來(lái)像“好的”機(jī)器人——結(jié)果卻導(dǎo)致他們的網(wǎng)站流量減少,因?yàn)樗麄兊膬?nèi)容已被重新包裝在AI生成的答案中。
我們認(rèn)為這給開(kāi)放的互聯(lián)網(wǎng)構(gòu)成了風(fēng)險(xiǎn)。如果無(wú)法控制掃描和實(shí)現(xiàn)價(jià)值,網(wǎng)站擁有者將缺乏啟動(dòng)或維護(hù)互聯(lián)網(wǎng)資產(chǎn)的動(dòng)力。創(chuàng)作者會(huì)把更多內(nèi)容放在付費(fèi)區(qū),而最大的出版商會(huì)直接達(dá)成交易。反過(guò)來(lái),AI模型提供者將難以在較小的網(wǎng)站上找到和訪問(wèn)高質(zhì)量的長(zhǎng)尾內(nèi)容。
這導(dǎo)致雙方都缺乏建立健康、透明的權(quán)限和價(jià)值交換的工具。從今天開(kāi)始,Cloudflare為網(wǎng)站擁有者提供他們解決這個(gè)問(wèn)題所需的服務(wù)。如下詳細(xì)列出我們建議所有客戶遵循的一系列步驟。
第一步:了解AI模型如何使用您的站點(diǎn)
Cloudflare上的每個(gè)站點(diǎn)現(xiàn)在都可以訪問(wèn)一個(gè)新的分析視圖,其中總結(jié)了流行和已知AI服務(wù)的爬取行為。您可以在儀表板中選擇一個(gè)站點(diǎn),然后導(dǎo)航到左側(cè)導(dǎo)航欄的AI Audit選項(xiàng)卡以開(kāi)始查看此信息,了解AI如何對(duì)您的內(nèi)容進(jìn)行掃描。
當(dāng)AI模型提供者訪問(wèn)您網(wǎng)站上的內(nèi)容時(shí),它們會(huì)依靠稱為“機(jī)器人”或“爬蟲(chóng)”的自動(dòng)化工具來(lái)掃描頁(yè)面。機(jī)器人將請(qǐng)求頁(yè)面內(nèi)容,捕獲響應(yīng),將其存儲(chǔ)為未來(lái)數(shù)據(jù)訓(xùn)練集的一部分,或者記住它以供未來(lái)的AI搜索引擎結(jié)果使用。
這些機(jī)器人常常通過(guò)在其請(qǐng)求中包含一個(gè)稱為用戶代理的HTTP標(biāo)頭來(lái)向您的站點(diǎn)(和Cloudflare的網(wǎng)絡(luò))表明它們自己的身份。但是在某些情況下,來(lái)自其中一個(gè)AI服務(wù)的機(jī)器人可能不會(huì)發(fā)送標(biāo)頭,因而Cloudflare會(huì)依賴其他啟發(fā)式方法來(lái)識(shí)別它們,例如IP地址或行為。
當(dāng)機(jī)器人表明身份時(shí),標(biāo)頭將包含一串帶有機(jī)器人名稱的文本。例如,Anthropic有時(shí)會(huì)使用名為ClaudeBot的機(jī)器人在互聯(lián)網(wǎng)上爬取站點(diǎn)。當(dāng)該服務(wù)從您在Cloudflare上的站點(diǎn)請(qǐng)求某個(gè)頁(yè)面的內(nèi)容時(shí),Cloudflare將用戶代理記錄為ClaudeBot。
Cloudflare會(huì)獲取從網(wǎng)站訪問(wèn)中收集的日志,并查找與已知AI機(jī)器人和爬蟲(chóng)相匹配的用戶代理。我們會(huì)匯總每個(gè)爬蟲(chóng)的活動(dòng),并為您提供過(guò)濾器,以查看僅來(lái)自特定AI平臺(tái)的活動(dòng)。許多AI公司使用多個(gè)爬蟲(chóng)來(lái)完成不同的任務(wù)。當(dāng)OpenAI掃描站點(diǎn)以進(jìn)行數(shù)據(jù)抓取時(shí),它們依賴于GPTBot,但在為其新的AI搜索引擎抓取站點(diǎn)時(shí),則使用OAI-SearchBot。
這些差異很重要。來(lái)自不同類型機(jī)器人的掃描可能會(huì)影響您網(wǎng)站的流量或內(nèi)容的歸屬。作為響應(yīng)的一部分,AI搜索引擎通常會(huì)鏈接到網(wǎng)站,從而可能將訪問(wèn)者帶到您的站點(diǎn)。在這種情況下,您可能希望這些類型的機(jī)器人對(duì)您的互聯(lián)網(wǎng)資產(chǎn)進(jìn)行爬取。另一方面,AI數(shù)據(jù)抓取工具的存在就是為了盡可能多地閱讀互聯(lián)網(wǎng)上的信息,以訓(xùn)練未來(lái)的模型或改進(jìn)現(xiàn)有的模型。
我們認(rèn)為您應(yīng)該知道機(jī)器人爬取您網(wǎng)站的原因、時(shí)間和頻率。本次發(fā)布的更新將提供一個(gè)過(guò)濾器,供您按AI Data Scraper、AI Search Crawler和Archiver等類別查看機(jī)器人活動(dòng)。
利用這些數(shù)據(jù),您可以開(kāi)始分析AI模型如何訪問(wèn)您的網(wǎng)站。這些信息可能會(huì)讓人感到不知所措,尤其是如果您的團(tuán)隊(duì)還沒(méi)有時(shí)間決定如何處理AI對(duì)您的內(nèi)容的掃描。如果您發(fā)現(xiàn)自己不確定該如何進(jìn)行下一步響應(yīng),請(qǐng)繼續(xù)進(jìn)行第2步。
第二步:先暫停,思考一下,決定下一步該做什么
我們與幾家組織進(jìn)行了交談,他們知道自己的網(wǎng)站對(duì)AI爬蟲(chóng)來(lái)說(shuō)是有價(jià)值的目的地,但還不知道該如何處理。這些團(tuán)隊(duì)需要“暫?!币幌拢员憔腿绾蜗蜻@些服務(wù)提供他們的數(shù)據(jù)做出明智的決定。
Cloudflare現(xiàn)在就為您提供了這樣一個(gè)簡(jiǎn)單的按鈕。使用任何計(jì)劃的任何客戶都可以選擇阻止所有AI機(jī)器人和爬蟲(chóng),以便在決定允許什么之前先暫停一下。
要啟用該選項(xiàng),請(qǐng)導(dǎo)航到Cloudflare儀表板“安全”選項(xiàng)卡下的“機(jī)器人”部分。點(diǎn)擊右上角的藍(lán)色鏈接,配置Cloudflare代理處理機(jī)器人流量的方式。接下來(lái),將“阻止AI Scrapers和Crawlers”卡片中的按鈕切換到“開(kāi)啟”位置。
這個(gè)一鍵式選項(xiàng)會(huì)根據(jù)Cloudflare維護(hù)的列表阻止已知的AI相關(guān)機(jī)器人和爬蟲(chóng)訪問(wèn)您的網(wǎng)站。實(shí)施屏蔽后,您和您的團(tuán)隊(duì)可以更從容地決定接下來(lái)該如何處理您的內(nèi)容。
第三步:控制要允許的機(jī)器人
暫停按鈕為您的團(tuán)隊(duì)爭(zhēng)取了時(shí)間,讓您決定希望這些爬蟲(chóng)與您的內(nèi)容之間建立什么樣的關(guān)系。一旦您的團(tuán)隊(duì)做出決定,您就可以開(kāi)始依靠Cloudflare的網(wǎng)絡(luò)來(lái)實(shí)施該政策。
如果該決定是“我們不允許任何爬取”,那么您可以將上面提到的阻止按鈕保持在“開(kāi)啟”狀態(tài)。如果您想允許一些選擇性的爬取,本次的更新為您提供了選項(xiàng),以便允許某些類型的機(jī)器人或者僅允許來(lái)自特定提供商的機(jī)器人訪問(wèn)您的內(nèi)容。
對(duì)于一些團(tuán)隊(duì)來(lái)說(shuō),決定可能是允許與AI搜索引擎相關(guān)的機(jī)器人掃描他們的互聯(lián)網(wǎng)資產(chǎn),因?yàn)檫@些工具仍然可以為網(wǎng)站帶來(lái)流量。其他組織可能會(huì)與特定的模型提供商簽訂協(xié)議,他們希望允許來(lái)自該提供商的任何類型的機(jī)器人訪問(wèn)他們的內(nèi)容?,F(xiàn)在,客戶可以導(dǎo)航到Cloudflare儀表板的WAF部分,實(shí)施這些類型的策略。
管理員還可以創(chuàng)建規(guī)則,例如,阻止所有AI機(jī)器人,但來(lái)自特定平臺(tái)的機(jī)器人除外。如果團(tuán)隊(duì)對(duì)大多數(shù)AI平臺(tái)持懷疑態(tài)度,但對(duì)某個(gè)AI模型提供商及其策略感到放心,則可以部署這些類型的過(guò)濾器。如果網(wǎng)站所有者已經(jīng)簽訂合同以允許某個(gè)提供商進(jìn)行掃描,這些類型的規(guī)則還可以用于執(zhí)行合同。網(wǎng)站管理員需要?jiǎng)?chuàng)建一個(gè)規(guī)則,阻止所有類型的AI相關(guān)機(jī)器人,然后添加一個(gè)例外,允許來(lái)自其AI合作伙伴的特定機(jī)器人。
除了應(yīng)用這些新的過(guò)濾器外,我們還建議客戶考慮更新其服務(wù)條款以涵蓋這一新用例。我們記錄了我們建議的“好”機(jī)器人和爬蟲(chóng)對(duì)robots.txt文件采取的步驟。作為這些最佳實(shí)踐的擴(kuò)展,我們將在文檔中添加一個(gè)新部分,提供一個(gè)示例服務(wù)條款部分,網(wǎng)站所有者可以考慮使用該部分來(lái)確定AI掃描需要遵循您在robots.txt文件中定義的政策。
第四步:審計(jì)現(xiàn)有掃描協(xié)議
越來(lái)越多站點(diǎn)正直接與模型提供商簽署協(xié)議,許可其內(nèi)容的消費(fèi)以換取報(bào)酬。其中許多交易都包含用于確定某些部分或整個(gè)網(wǎng)站爬取速度的條款。Cloudflare的AI Audit選項(xiàng)卡為您提供了監(jiān)控此類合同的工具。
現(xiàn)在,AI Audit工具底部的表格會(huì)列出網(wǎng)站上最受歡迎的內(nèi)容,其依據(jù)是在頁(yè)面頂部所設(shè)過(guò)濾器中的時(shí)間段內(nèi)的掃描次數(shù)。您可以點(diǎn)擊“導(dǎo)出為CSV”按鈕,快速下載一個(gè)文件,其中包含此處展示的詳細(xì)信息,以便與您允許訪問(wèn)內(nèi)容的AI平臺(tái)討論任何差異。
今天,向您提供的數(shù)據(jù)代表了我們從簽訂了此類協(xié)議的客戶處聽(tīng)聞的關(guān)鍵指標(biāo):針對(duì)特定頁(yè)面的請(qǐng)求,以及針對(duì)整個(gè)網(wǎng)站的請(qǐng)求。
第五步:為您的站點(diǎn)做好準(zhǔn)備,以便從AI掃描中獲取價(jià)值
并非每個(gè)人都有時(shí)間或人脈與AI公司談判協(xié)議。到目前為止,只有互聯(lián)網(wǎng)上最大的出版商才有資源設(shè)定這種條款并為他們的內(nèi)容獲得報(bào)酬。
其他人在如何處理其數(shù)據(jù)方面只有兩個(gè)基本選擇:阻止所有掃描或允許無(wú)限制訪問(wèn)。本次的發(fā)布讓內(nèi)容創(chuàng)作者擁有比這兩個(gè)選項(xiàng)更多的可見(jiàn)性和控制權(quán),但互聯(lián)網(wǎng)上的“長(zhǎng)尾”站點(diǎn)依然缺乏變現(xiàn)的途徑。
我們認(rèn)為,任何規(guī)模的網(wǎng)站都應(yīng)該就對(duì)其內(nèi)容的使用獲得公平的回報(bào)。Cloudflare計(jì)劃在我們的儀表板中推出一個(gè)新的組件,其功能將不僅僅是阻止和分析爬網(wǎng)行為。網(wǎng)站所有者將能夠?yàn)槠渚W(wǎng)站或網(wǎng)站的某些部分設(shè)定價(jià)格,然后根據(jù)設(shè)定的價(jià)格和模型提供商的掃描次數(shù)向模型提供商收費(fèi)。我們將處理其余的工作,讓您可以專注于為自己的受眾創(chuàng)造精彩的內(nèi)容。
要準(zhǔn)備好通過(guò)這個(gè)新組件獲取價(jià)值,最快的方法是確保您的站點(diǎn)使用Cloudflare的網(wǎng)絡(luò)。