什么是良性機(jī)器人?
機(jī)器人是一種計(jì)算機(jī)程序,可以自動(dòng)通過(guò)互聯(lián)網(wǎng)與網(wǎng)絡(luò)媒體資源進(jìn)行交互。 "良性"的機(jī)器人是指執(zhí)行有用或有幫助的任務(wù)且不會(huì)損害用戶(hù)互聯(lián)網(wǎng)體驗(yàn)的那些機(jī)器人。由于良性的機(jī)器人可以與惡意機(jī)器人具備相似的特征,因此現(xiàn)有的挑戰(zhàn)是確保在制定機(jī)器人管理策略時(shí)不會(huì)阻止阻擋良性的機(jī)器人。
現(xiàn)有的很多良性機(jī)器人,各自都是為不同的任務(wù)而設(shè)計(jì)的。以下是一些示例:
搜索引擎機(jī)器人: 也稱(chēng)為網(wǎng)絡(luò)爬蟲(chóng)或蜘蛛:這些機(jī)器人在互聯(lián)網(wǎng)的幾乎每個(gè)網(wǎng)站上”爬行“,搜索或?yàn)g覽內(nèi)容,然后對(duì)該內(nèi)容進(jìn)行索引,以便可以在搜索引擎結(jié)果中顯示相關(guān)內(nèi)容用戶(hù)搜索。它們由谷歌、Bing或Yandex等搜索引擎運(yùn)營(yíng)。
版權(quán)機(jī)器人: 機(jī)器人在平臺(tái)或網(wǎng)站爬行,尋找可能違反版權(quán)法的內(nèi)容。這些機(jī)器人可以由擁有版權(quán)材料的任何人或公司操作。版權(quán)機(jī)器人可以查找重復(fù)的文本、音樂(lè)、圖像甚至視頻。
站點(diǎn)監(jiān)視機(jī)器人: 這些機(jī)器人監(jiān)視網(wǎng)站指標(biāo)(例如,監(jiān)視反向鏈接或系統(tǒng)中斷),并可以向用戶(hù)發(fā)出重大更改或停機(jī)的警報(bào)。例如,Cloudflare運(yùn)營(yíng)著一個(gè)名為 Always Online 的爬蟲(chóng)程序機(jī)器人,該機(jī)器人告訴Cloudflare網(wǎng)絡(luò)在源站關(guān)閉時(shí)提供網(wǎng)頁(yè)的高速緩存版本。
商業(yè)機(jī)器人: 由商業(yè)公司運(yùn)營(yíng)的機(jī)器人通過(guò)互聯(lián)網(wǎng)搜尋信息。運(yùn)營(yíng)這些機(jī)器人可能是監(jiān)視新聞報(bào)道或客戶(hù)評(píng)論的市場(chǎng)研究公司,旨在優(yōu)化廣告展示位置的廣告網(wǎng)絡(luò)商,或是抓取客戶(hù)網(wǎng)站的SEO代理商。
Feed機(jī)器人:這些機(jī)器人在互聯(lián)網(wǎng)上爬行,尋找具有新聞價(jià)值的內(nèi)容以添加到平臺(tái)的新聞推送中。內(nèi)容聚合網(wǎng)站或社交媒體網(wǎng)絡(luò)可能會(huì)運(yùn)營(yíng)這些機(jī)器人。
聊天機(jī)器人:聊天機(jī)器人通過(guò)用預(yù)先編程的響應(yīng)來(lái)回答用戶(hù),從而模仿人類(lèi)對(duì)話(huà)。一些聊天機(jī)器人足夠復(fù)雜,可以進(jìn)行冗長(zhǎng)的對(duì)話(huà)。
個(gè)人助理機(jī)器人: 像Siri或Alexa:盡管這些程序比典型的機(jī)器人要先進(jìn)得多,但它們?nèi)匀皇菣C(jī)器人:在網(wǎng)頁(yè)上瀏覽數(shù)據(jù)的計(jì)算機(jī)程序。
良性機(jī)器人與惡意機(jī)器人
Web屬性需要確保它們?cè)谠噲D過(guò)濾出惡意機(jī)器人流量時(shí)不會(huì)阻止良性機(jī)器人。尤其重要的是,不要阻止搜索引擎網(wǎng)絡(luò)爬蟲(chóng)程序的機(jī)器人,因?yàn)槿绻麤](méi)有它們,網(wǎng)站將無(wú)法顯示在搜索結(jié)果中。
惡意機(jī)器人可以竊取數(shù)據(jù),闖入用戶(hù)帳戶(hù),通過(guò)在線(xiàn)表單提交垃圾數(shù)據(jù)以及執(zhí)行其他惡意活動(dòng)。惡意機(jī)器人的類(lèi)型包括憑證填充機(jī)器人 、內(nèi)容抓取機(jī)器人 、垃圾郵件機(jī)器人和點(diǎn)擊欺詐機(jī)器人。
什么是 robots.txt?
良性機(jī)器人管理始于在網(wǎng)站的robots.txt文件中正確設(shè)置規(guī)則。 robots.txt 文件是駐留在網(wǎng)絡(luò)服務(wù)器上的文本文件,它為所有訪(fǎng)問(wèn)主機(jī)網(wǎng)站或應(yīng)用程序的機(jī)器人指定規(guī)則。這些規(guī)則定義了機(jī)器人可以爬網(wǎng)和不能爬網(wǎng)的頁(yè)面,它們應(yīng)該和不應(yīng)該遵循的鏈接以及其他對(duì)機(jī)器人行為要求。
良性機(jī)器人將遵循這些規(guī)則。例如,如果網(wǎng)站所有者不希望其網(wǎng)站上的某個(gè)頁(yè)面顯示在Google搜索結(jié)果中,則可以在robots.txt文件中編寫(xiě)規(guī)則,而谷歌網(wǎng)絡(luò)抓取程序機(jī)器人不會(huì)將該頁(yè)面編入索引。盡管robots.txt文件實(shí)際上不能強(qiáng)制執(zhí)行這些規(guī)則,但是良性機(jī)器人已被編程為在執(zhí)行其他任何操作之前先查找文件并遵循規(guī)則。
但是,惡意機(jī)器人通常會(huì)忽略robots.txt文件,或者會(huì)閱讀該文件以了解網(wǎng)站試圖阻止機(jī)器人進(jìn)入哪些內(nèi)容,然后訪(fǎng)問(wèn)該內(nèi)容。因此, 管理機(jī)器人需要采取比在robots.txt文件列出機(jī)器人行為的規(guī)則更積極的方式。
什么是白名單?
白名單可以視為活動(dòng)的來(lái)賓列表。如果不在嘉賓名單上的某人試圖進(jìn)入活動(dòng)場(chǎng)地,安全人員將阻止他們進(jìn)入。名單上的任何人都可以自由參加活動(dòng)。這樣的方法是必要的,因?yàn)椴徽?qǐng)自來(lái)的客人可能會(huì)表現(xiàn)不佳并破壞其他人的聚會(huì)。
機(jī)器人管理基本上就是白名單的工作方式。白名單是允許訪(fǎng)問(wèn)網(wǎng)絡(luò)屬性的機(jī)器人列表。(白名單的名字因其與黑名單相反而得來(lái)。)通常,這可以通過(guò)稱(chēng)為"用戶(hù)代理“,機(jī)器人的 IP地址或兩者的組合來(lái)實(shí)現(xiàn)。用戶(hù)代理是一串字符串,用于標(biāo)識(shí)網(wǎng)頁(yè)服務(wù)器的用戶(hù)(或機(jī)器人)的類(lèi)型。
通過(guò)確保列表允許良性機(jī)器人用戶(hù)代理(例如屬于搜索引擎的機(jī)器人)并阻止不在列表中的所有機(jī)器人,網(wǎng)頁(yè)服務(wù)器就可以確保良性機(jī)器人的訪(fǎng)問(wèn)。
網(wǎng)頁(yè)服務(wù)器還可以將已知的惡意機(jī)器人列入黑名單。
什么是黑名單?
在網(wǎng)絡(luò)環(huán)境中,黑名單包含了IP地址、用戶(hù)代理或其他禁止訪(fǎng)問(wèn)服務(wù)器、網(wǎng)絡(luò)或網(wǎng)頁(yè)媒體資源的在線(xiàn)身份指示符。這與使用白名單略有不同:基于黑名單的機(jī)器人管理策略將阻止那些特定的機(jī)器人并允許所有其他機(jī)器人通過(guò),而白名單策略?xún)H允許指定的機(jī)器人通過(guò)并阻止所有其他機(jī)器人。
白名單是否足以讓良性機(jī)器人進(jìn)入并阻止惡意機(jī)器人?
惡意機(jī)器人有可能假冒其用戶(hù)代理字符串,從而至少在最初看起來(lái)像一個(gè)良性機(jī)器人 – 就像小偷可能使用假身份證偽裝在來(lái)賓名單上并潛入活動(dòng)場(chǎng)地一樣。
因此,良性機(jī)器人白名單必須與其他方法結(jié)合起來(lái),以檢測(cè)欺騙,例如行為分析或機(jī)器學(xué)習(xí)。除了簡(jiǎn)單地允許已知的良性機(jī)器人外,這還有助于主動(dòng)識(shí)別惡意機(jī)器人和未知的良性機(jī)器人。
機(jī)器人管理器解決方案有什么作用?
機(jī)器人程序管理產(chǎn)品允許良性機(jī)器人訪(fǎng)問(wèn)網(wǎng)絡(luò)屬性,同時(shí)阻止惡意機(jī)器人。 Cloudflare 機(jī)器人管理 使用機(jī)器學(xué)習(xí)和整個(gè)網(wǎng)絡(luò)流量的行為分析來(lái)檢測(cè)惡意機(jī)器人,同時(shí)自動(dòng)將其持續(xù)列入白名單。