8月31日消息,隨著人工智能技術(shù)的迅猛發(fā)展,曾經(jīng)用于搜索引擎索引的網(wǎng)絡(luò)爬蟲現(xiàn)在被用于收集訓(xùn)練數(shù)據(jù)來開發(fā)人工智能模型。內(nèi)容創(chuàng)作者意識到,他們的勞動成果被大科技公司免費(fèi)使用來開發(fā)新的人工智能工具,爬蟲協(xié)議已經(jīng)無法解決這個問題。這可能會影響內(nèi)容所有者在線分享內(nèi)容的動力,從而從根本上改變互聯(lián)網(wǎng)。
以下為翻譯內(nèi)容:
20世紀(jì)90年代末,出現(xiàn)了一種名為爬蟲協(xié)議(robots.txt)的簡單代碼,允許網(wǎng)站所有者告知搜索引擎的機(jī)器人爬蟲哪些頁面可以抓取,哪些頁面不能抓取。如今,爬蟲協(xié)議已成為業(yè)界普遍接受的非官方網(wǎng)絡(luò)規(guī)則之一。
機(jī)器人爬蟲的主要目的是索引信息,改善搜索引擎的搜索結(jié)果。谷歌、必應(yīng)和其他搜索引擎都有爬蟲程序,它們生成網(wǎng)絡(luò)內(nèi)容的索引信息,并提供給潛在的數(shù)十億用戶。這也是互聯(lián)網(wǎng)蓬勃發(fā)展的基礎(chǔ),創(chuàng)作者們在網(wǎng)絡(luò)上分享豐富信息,因?yàn)樗麄冎烙脩魰L問他們的網(wǎng)站并瀏覽廣告、訂閱服務(wù)或購買商品。
然而,生成式人工智能和大語言模型正在從根本上迅速改變網(wǎng)絡(luò)爬蟲的任務(wù)。這些工具并沒有為內(nèi)容創(chuàng)作者提供支持,反而成為他們的敵人。
機(jī)器人喂飽了大科技公司
現(xiàn)在,網(wǎng)絡(luò)爬蟲收集在線信息,并生成大規(guī)模的數(shù)據(jù)集,這些數(shù)據(jù)集被富有的科技公司免費(fèi)用于開發(fā)人工智能模型。比如,CCBot為最大的人工智能數(shù)據(jù)集之一Common Crawl提供數(shù)據(jù);GPTbot則是向人工智能明星創(chuàng)企OpenAI提供數(shù)據(jù)。谷歌將自家的大語言模型的訓(xùn)練數(shù)據(jù)稱為“無限集合”,但沒有提及大部分?jǐn)?shù)據(jù)來自Common Crawl的精簡版C4。
這些公司開發(fā)的人工智能模型使用這些免費(fèi)信息來學(xué)習(xí)如何回答用戶的問題,這與為網(wǎng)站建立索引信息、讓用戶訪問原始內(nèi)容的既定模式相去甚遠(yuǎn)。
如果沒有潛在的消費(fèi)者,內(nèi)容創(chuàng)作者就沒有動力讓網(wǎng)絡(luò)爬蟲繼續(xù)收集免費(fèi)數(shù)據(jù)。GPTbot已被亞馬遜、愛彼迎、Quora和其他上千家網(wǎng)站屏蔽。對Common Crawl數(shù)據(jù)集的CCBot的屏蔽也越來越多。
“粗糙的工具”
阻止這些網(wǎng)絡(luò)爬蟲的方式并沒有太大變化。網(wǎng)站所有者只能部署爬蟲協(xié)議并屏蔽特定爬蟲,但效果并不理想。
“這是件有點(diǎn)粗糙的工具,”Wordpress前高管、科技投資者、數(shù)字營銷公司Yoast創(chuàng)始人約斯特·德·瓦爾克(Joost de Valk)說。“它沒有法律依據(jù),基本上是由谷歌維護(hù)的,盡管他們聲稱是與其他搜索引擎共同維護(hù)的?!?/p>
考慮到各大企業(yè)對高質(zhì)量人工智能數(shù)據(jù)的巨大需求,爬蟲協(xié)議也容易被操縱。例如,像OpenAI這樣的公司只需更改其網(wǎng)絡(luò)爬蟲的名稱,就可以繞過人們使用爬蟲協(xié)議設(shè)置的禁止規(guī)則。
此外,由于爬蟲協(xié)議是自愿遵守的,網(wǎng)絡(luò)爬蟲也可以簡單地忽略指令并繼續(xù)收集信息。像Brave等較新的搜索引擎的網(wǎng)絡(luò)爬蟲就不會受到規(guī)則的影響。
“網(wǎng)上的一切信息都被模型吸進(jìn)了真空,”研究人類生成數(shù)據(jù)與人工智能之間關(guān)系的計(jì)算機(jī)科學(xué)教授尼克·文森特(Nick Vincent)說?!斑@背后發(fā)生了很多事情。在接下來的時間里,我們希望能以不同的方式評估這些模型。
創(chuàng)作者的回應(yīng)
德·瓦爾克警告稱,內(nèi)容所有者和創(chuàng)作者可能已經(jīng)太遲鈍,無法理解允許這些網(wǎng)絡(luò)爬蟲免費(fèi)獲取他們的數(shù)據(jù)、不加區(qū)分地使用這些數(shù)據(jù)來開發(fā)人工智能模型的風(fēng)險。
“現(xiàn)在,什么都不做意味著,‘我認(rèn)可我的內(nèi)容出現(xiàn)在世界上所有的人工智能和大語言模型中,’”德·瓦爾克說?!斑@是完全錯誤的。需要創(chuàng)建更好的爬蟲協(xié)議,但搜索引擎和大型人工智能團(tuán)隊(duì)自己很難會去做這件事?!?/p>
一些大公司和網(wǎng)站最近做出了回應(yīng),其中一些是第一次部署爬蟲協(xié)議。
檢測人工智能生成內(nèi)容的公司Originality.ai表示,截至8月22日,在1000個最受用戶歡迎的網(wǎng)站中有70個使用爬蟲協(xié)議屏蔽GPTBot。
Originality.ai還發(fā)現(xiàn),在1000個最受歡迎的網(wǎng)站中,有62個屏蔽了Common Crawl的網(wǎng)絡(luò)爬蟲CCBot。隨著人們對人工智能數(shù)據(jù)收集的意識日益增強(qiáng),今年有越來越多的網(wǎng)站開始屏蔽Common Crawl。
然而,網(wǎng)站不能強(qiáng)制執(zhí)行爬蟲協(xié)議。任何爬蟲都可以忽略該文件,繼續(xù)收集網(wǎng)頁上的數(shù)據(jù),而網(wǎng)頁所有者可能根本不知情。即使部署爬蟲協(xié)議具有法律依據(jù),其初衷與利用網(wǎng)絡(luò)信息開發(fā)人工智能模型關(guān)系不大。
紐約大學(xué)技術(shù)法律與政策診所主任杰森·舒爾茨(Jason Schultz)表示,"Robots.txt不太可能被視為禁止使用網(wǎng)站數(shù)據(jù)的法律。"這主要是為了表明人們不希望自己的網(wǎng)站被搜索引擎編入索引,而不是表示人們不希望自己的內(nèi)容被用于訓(xùn)練機(jī)器學(xué)習(xí)和人工智能。
“這是一個雷區(qū)”
事實(shí)上,這種情況已經(jīng)持續(xù)了多年。早在2018年,OpenAI就公布了首個GPT模型,并通過BookCorpus數(shù)據(jù)集進(jìn)行訓(xùn)練。Common Crawl始于2008年,并于2011年通過亞馬遜云服務(wù)公開了數(shù)據(jù)集。
盡管如今屏蔽GPTBot的網(wǎng)站越來越多,但對于那些擔(dān)心自己的數(shù)據(jù)被用于訓(xùn)練人工智能模型的企業(yè)來說,Common Crawl的威脅更大??梢哉f,Common Crawl之于人工智能,就像谷歌之于互聯(lián)網(wǎng)搜索。
非營利組織知識共享(Creative Commons)首席執(zhí)行官凱瑟琳·斯蒂勒(Catherine Stihler)表示,
“這是一個雷區(qū)。我們幾年前才更新了戰(zhàn)略,現(xiàn)在我們處于一個不同的世界?!?/p>
知識共享始于2001年,是創(chuàng)作者和內(nèi)容所有者用知識共享許可協(xié)議來替代嚴(yán)格版權(quán),在網(wǎng)上使用并分享作品許可的一種方式。在共享許可協(xié)議的基礎(chǔ)上,創(chuàng)作者和所有者保留他們的權(quán)利,并允許其他人訪問內(nèi)容并創(chuàng)作衍生作品。維基百科、Flickr、Stack Overflow等許多知名網(wǎng)站都是通過知識共享許可協(xié)議運(yùn)作的。
知識共享組織在最新的五年戰(zhàn)略中表示,在訓(xùn)練人工智能技術(shù)方面,開放內(nèi)容的使用存在問題。知識共享組織希望使在線作品共享更加公平。
1600億網(wǎng)頁
通過CCBot爬取公開信息的Common Crawl擁有最大的數(shù)據(jù)存儲庫。自2011年以來,它已從1600億個網(wǎng)頁中抓取和保存信息,并持續(xù)增加。一般來說,Common Crawl每月抓取并保存大約30億個網(wǎng)頁的信息。
Common Crawl稱,這項(xiàng)事業(yè)是一個“開放數(shù)據(jù)”項(xiàng)目,旨在讓任何人“打開自己的好奇心,分析世界,追求卓越的想法”。
然而,現(xiàn)在的情況完全不同。大量Common Crawl收集的數(shù)據(jù)被大科技公司用于開發(fā)專有模型。即使一家大型科技公司目前沒有從人工智能產(chǎn)品中獲利,未來也有可能這樣做。
一些大型科技公司已停止披露訓(xùn)練數(shù)據(jù)來源。然而,許多強(qiáng)大的人工智能模型都是使用Common Crawl開發(fā)的。它幫助谷歌開發(fā)了Bard,幫助Meta訓(xùn)練Llama,幫助OpenAI創(chuàng)建ChatGPT。
Common Crawl還向The Pile提供數(shù)據(jù),后者還擁有更多從其他爬蟲抓取的數(shù)據(jù)集。The Pile已廣泛用于人工智能項(xiàng)目,包括Llama和微軟與英偉達(dá)共同開發(fā)的MT-NLG。
從今年6月份開始,The Pile下載量最大的數(shù)據(jù)之一是受版權(quán)保護(hù)的漫畫書,包括阿奇漫畫、蝙蝠俠、X戰(zhàn)警、星球大戰(zhàn)和超人系列的作品。這些作品都是DC漫畫和漫威創(chuàng)作的,現(xiàn)在仍受版權(quán)保護(hù)。最近有報(bào)道稱,The Pile中還存儲了大量受版權(quán)保護(hù)的書籍。
紐約大學(xué)的舒爾茨表示,爬蟲的目的和使用方式完全不同。很難監(jiān)管或要求它們以特定方式使用數(shù)據(jù)。
對于The Pile來說,雖然它承認(rèn)數(shù)據(jù)中包含受版權(quán)保護(hù)的材料,但在創(chuàng)立數(shù)據(jù)集的技術(shù)文章中聲稱,“處理和分發(fā)他人擁有的數(shù)據(jù)也可能違反版權(quán)法”的說法幾乎沒有人會認(rèn)同。
此外,The Pile還辯稱,盡管數(shù)據(jù)集中存儲了相對未經(jīng)改變的作品,但根據(jù)合理使用原則,對這些材料的使用應(yīng)該是變革性的。The Pile還承認(rèn),在訓(xùn)練大語言模型時,需要使用完整的版權(quán)內(nèi)容以產(chǎn)生最佳效果。
網(wǎng)絡(luò)爬蟲和人工智能項(xiàng)目中所謂的合理使用觀點(diǎn)已經(jīng)受到了質(zhì)疑。作家、視覺藝術(shù)家甚至源代碼開發(fā)人員起訴OpenAI、微軟和Meta等公司,因?yàn)樗麄兊脑瓌?chuàng)作品在未經(jīng)許可的情況下被用于訓(xùn)練模型,而他們并沒有從中受益。
微軟前高管、風(fēng)投公司安德森·霍洛維茨(Andreessen Horowitz)合伙人史蒂文·辛諾夫斯基(Steven Sinofsky)最近在社交媒體上寫道,即便將東西放到互聯(lián)網(wǎng)上,也不能不經(jīng)同意就免費(fèi)、無限制地將某人的勞動成果用于商業(yè)用途。
沒有解決辦法
“我們現(xiàn)在正在努力解決所有這些問題,”知識共享組織首席執(zhí)行官斯蒂勒表示,有很多問題需要解決:補(bǔ)償、授權(quán)、信任。在人工智能時代,我們還沒有答案。
德·瓦爾克表示,由于知識共享許可協(xié)議可以促進(jìn)版權(quán)的流通性、允許自己擁有的作品在互聯(lián)網(wǎng)上使用,可以作為開發(fā)人工智能模型的一種潛在許可模式。
斯蒂勒對此并不確定。她說,涉及到人工智能時,也許并沒有單一的解決方案。即使是更靈活的通用協(xié)議,也可能行不通。你如何向整個互聯(lián)網(wǎng)授權(quán)?
斯蒂勒說:“與我交談過的每一位律師都說,許可并不能解決問題?!?/p>
她經(jīng)常與作者、人工智能行業(yè)高管等利益相關(guān)者討論這個問題。斯蒂勒今年早些時候會見了OpenAI的代表,并表示公司正在討論如何獎勵創(chuàng)作者。
但她補(bǔ)充說,目前還不清楚人工智能時代的公共空間將會是什么樣子。
鑒于網(wǎng)絡(luò)爬蟲已經(jīng)為大型科技公司收集了大量數(shù)據(jù),加上內(nèi)容創(chuàng)作者根本無法掌控,互聯(lián)網(wǎng)可能會發(fā)生巨大變化。
如果發(fā)布信息意味著將數(shù)據(jù)免費(fèi)提供給與自己競爭的人工智能模型,那么這種活動可能會停止。
已經(jīng)有跡象表明,訪問問答網(wǎng)站Stack Overflow來回答問題的程序員越來越少,因?yàn)樗麄冎暗母冻霰挥脕碛?xùn)練人工智能模型,現(xiàn)在這些模型可以自動回答許多問題。
斯蒂勒表示,所有在線創(chuàng)作內(nèi)容的未來可能很快就會像現(xiàn)在的流媒體一樣,內(nèi)容被鎖在訂閱服務(wù)中,成本越來越高。
“如果我們不小心,最終就會導(dǎo)致公共空間關(guān)閉,”斯蒂勒說?!皩懈嘤袊鷫Φ幕▓@、更多人們無法訪問的東西。這不是未來知識和創(chuàng)造力的成功模式。”