IT之家 6月28日消息,隨著生成式AI的低成本化,越來越多使用爬蟲抓取其他網站內容,并用AI重新生成信息的“垃圾網站”不斷涌出,目前外媒NewsGuard發(fā)布相關數據報告,稱目前已經追蹤到了200余個此類“垃圾網站”。
據悉,NewsGuard從今年年初開始標記這些使用AI生成內容的網站,在今年4月時,他們登記了49個相關網站,到了6月則已超過200個,而這些“AI垃圾場”缺乏人類監(jiān)管,其中消息魚龍混雜,沒有任何可信度,完全是為了從Google Ads中薅羊毛而生。
圖源NewsGuard
調查顯示,這些“垃圾網站”存在的目的就是誘導用戶點擊訪問,并通過其中顯示的廣告賺取收入,其中名為TNN的網站甚至每天可生成逾1200篇文章,該網站完全由爬蟲及“轉換語法后重寫一遍”的AI腳本控制,相較之下,《紐約時報》網站每天平均僅發(fā)布150篇文章。
圖源NewsGuard
圖源NewsGuard
截至6月26日,AI“垃圾網站”已經追蹤標記了277個站點,這些網站涵蓋了13種語言,包括中文、英文、阿拉伯語、捷克語、荷蘭語、法文、印尼文、意大利文、韓文、葡萄牙語、他加祿語(菲律賓)、泰文及土耳其語等。
IT之家注意到,實際上這種利用爬蟲批量爬取其他媒體資訊信息,并在爬取的資訊頁面中加上大量廣告,并通過“競價排名”吸引訪問者,進而獲取廣告補貼的網站,在AI時代來臨前就已經相當常見,而生成式AI的普及只是給予了這些網站更低的營運成本。
圖源Pexels
而谷歌的廣告政策明確表示,不允許在自動生成的內容網站文章中使用Google Ads API,但這些網站實際上每個新聞頁都有3-5個廣告鏈接,因此實際也違反了谷歌的廣告政策。