AI模型的出現(xiàn)改變了網(wǎng)絡爬蟲的生態(tài),為了讓網(wǎng)站能夠管理AI網(wǎng)絡爬蟲的數(shù)據(jù)抓取,Cloudflare本周發(fā)布了一系列工具,包括可用來查看AI爬蟲具體活動的AI Audit,可一鍵封鎖所有AI爬蟲的Block AI Scrapers and Crawlers,也準備推出新組件,以讓網(wǎng)站管理者可以設置特定內容的價格,并向模型供應商收費。
Cloudflare解釋,過去網(wǎng)絡爬蟲只有好跟壞兩種,好爬蟲以搜索引擎爬蟲為代表,讓用戶可發(fā)現(xiàn)網(wǎng)站并替網(wǎng)站帶來流量,壞爬蟲則可能會攻擊網(wǎng)站、利用自動化功能奪取優(yōu)先權,或是訪問用以競爭的數(shù)據(jù)。然而,AI時代帶來了第三種AI爬蟲,這些爬蟲試圖掃描網(wǎng)站的公開內容,并用來訓練模型,盡管它們并不會破壞或攻擊網(wǎng)站,但它們也不會替網(wǎng)站帶來流量,而是利用網(wǎng)站的內容來創(chuàng)造自己的價值。
過去Cloudflare構建了Cloudflare Bot Management平臺,以讓網(wǎng)站管理員可區(qū)分不同的爬蟲,并決定允許或阻止它們,現(xiàn)在Cloudflare則開發(fā)AI Audit,可用來查看AI爬蟲的各種行為,包括爬蟲的類型、訪問的頻率,或是所掃描的內容,以準確了解AI爬蟲的行為,決定是否控制它們。
若還不確定該如何處理這些AI爬蟲,網(wǎng)站管理員可以借由新的Block AI Scrapers and Crawlers功能,一鍵封鎖所有的AI爬蟲。
在這兩個新的免費功能之外,網(wǎng)站管理員也可通過既有的Web Application Firewall(WAF)功能,更精細地控制所要允許或封鎖的爬蟲。
Cloudflare指出,除了上述的選擇之外,他們認為網(wǎng)站應該也要能夠得到合理的補償,因此正在規(guī)劃一個新的組件,允許網(wǎng)站擁有者可替該站或特定內容設置價格,要求以AI爬蟲掃描該站的模型供應商付費。
圖片來源/Cloudflare