當(dāng)今數(shù)字化時(shí)代,幾乎每個(gè)行業(yè)都意識(shí)到“流量”的重要性。以電商為例,流量意味著曝光量,意味著客戶感知度,意味著口碑,意味著潛在客戶,也意味著商機(jī)……
然而您所獲得的全部流量,真的就都是有益的,都能對(duì)業(yè)務(wù)產(chǎn)生積極影響嗎?那也未必!
爬蟲,流量獲取之路上一個(gè)繞不過的坎兒
作為全球領(lǐng)先的IT技術(shù)和服務(wù)提供商,Akamai致力于通過智能邊緣平臺(tái)為全球企業(yè)提供安全、流暢的數(shù)字化體驗(yàn)。憑借遍及全球135個(gè)國家/地區(qū)的龐大規(guī)模與豐富服務(wù),Akamai目前已承載了30%的全球互聯(lián)網(wǎng)流量。經(jīng)分析發(fā)現(xiàn),這其中只有約60%的流量是真實(shí)用戶產(chǎn)生的,其余40%的流量都來自于各種爬蟲。
爬蟲又是什么?簡單來說,爬蟲是一種自動(dòng)運(yùn)行,在互聯(lián)網(wǎng)上檢索各類信息(這一過程也叫做“爬取”)的程序。例如每個(gè)人可能都會(huì)使用的搜索引擎,就是事先由搜索引擎的爬蟲程序爬取全網(wǎng)的網(wǎng)頁,了解不同網(wǎng)頁包含了哪些信息,隨后才能為我們提供搜索結(jié)果。
具體到電商領(lǐng)域而言,根據(jù)Akamai統(tǒng)計(jì),電商行業(yè)所產(chǎn)生的流量中,來自真實(shí)用戶以及來自爬蟲的流量幾乎處于對(duì)半分的狀態(tài)。也就是說,電商IT系統(tǒng)所處理的流量,約有50%都來自于各類爬蟲程序。
其中包括來自搜索引擎、廣告平臺(tái)、社交媒體、測試平臺(tái)等商家真正需要的爬蟲(可稱為“善意爬蟲”);當(dāng)然,不可避免地會(huì)有競爭對(duì)手爬取商品價(jià)格庫存等信息,或惡意人員開展撞庫攻擊的,商家不需要并且希望盡可能避免的爬蟲(此類可叫做“惡意爬蟲”)。
惡意爬蟲的影響,往往是多方面的
從IT的視角來看,如果50%的電商流量都是爬蟲產(chǎn)生的,那么其中源自各類惡意爬蟲的流量占比也不會(huì)小。這意味著企業(yè)為應(yīng)對(duì)業(yè)務(wù)增長而準(zhǔn)備的IT容量中,很大一部分都被各類不需要的惡意爬蟲流量消耗了。換句話說,惡意爬蟲流量在影響Web系統(tǒng)性能的同時(shí),也進(jìn)一步增加了基礎(chǔ)設(shè)施和運(yùn)維等各方面成本。
從業(yè)務(wù)視角來看影響更大。競爭對(duì)手惡意爬取價(jià)格、庫存等信息,會(huì)直接削弱商家競爭力;“黃牛黨”和“羊毛黨”利用爬蟲干擾正常新品首發(fā)或促銷活動(dòng),導(dǎo)致失去銷售機(jī)會(huì)甚至影響到商家與客戶的關(guān)系;發(fā)起撞庫攻擊的爬蟲甚至?xí)?dǎo)致用戶賬號(hào)、賬戶余額、積分失竊等更嚴(yán)重后果,導(dǎo)致商家聲譽(yù)受到影響,甚至在某些情況下造成不合規(guī)或罰款。
因此對(duì)于爬蟲管理,我們可以首先明確這樣一個(gè)最基本原則:區(qū)分爬蟲的類型和作用,隨后針對(duì)不同爬蟲,有針對(duì)性地加以處理,在不影響善意爬蟲正常運(yùn)行的前提下,盡可能阻止惡意爬蟲生效。
傳統(tǒng)爬蟲管理方法早已難以為繼
目前市面上已經(jīng)有很多爬蟲管理解決方案,但這些產(chǎn)品大多使用了一種較為傳統(tǒng)的,已無法迎合最新技術(shù)趨勢的方法:根據(jù)User Agent信息或IP地址識(shí)別出爬蟲程序,然后“一刀切”地直接拒絕訪問。
短期內(nèi),這類解決方案可能會(huì)產(chǎn)生一定效果。但從長期范圍來看,這只會(huì)導(dǎo)致爬蟲不斷演化和完善,讓商家和爬蟲運(yùn)營者陷入“識(shí)別阻止,改進(jìn)完善,重新識(shí)別阻止,再次改進(jìn)完善”的無限拉鋸戰(zhàn)中。
為規(guī)避檢測,爬蟲運(yùn)營者只需簡單修改代碼即可改變爬蟲User Agent信息或具體行為;而更換IP地址?借助越來越普及的公有云服務(wù),這完全是小菜一碟。只要傳統(tǒng)爬蟲管理解決方案成功阻止了某種爬蟲,就會(huì)引起運(yùn)營者警覺并將爬蟲繼續(xù)完善,進(jìn)一步增大了被成功檢測出來的難度。
Bot Manager幫您構(gòu)建反爬蟲安全體系
Akamai Bot Manager建立在Akamai Intelligent Edge Platform之上,該平臺(tái)在130多個(gè)國家/地區(qū)擁有約300,000臺(tái)服務(wù)器,可提供出色的規(guī)模、恢復(fù)能力和性能。Bot Manager能在邊緣檢測、識(shí)別和管理爬蟲程序,從而僅將干凈的流量轉(zhuǎn)發(fā)至源站,并通過智能AI算法,根據(jù)合法和惡意流量趨勢進(jìn)行調(diào)整,以此更好地檢測、分類、管理不同類型的爬蟲流量。
在爬蟲檢測方面,除了傳統(tǒng)的瀏覽器特征分析、IP速率限制、網(wǎng)絡(luò)報(bào)頭分析等技術(shù)外,Bot Manager還全面采用了更先進(jìn)、智能的用戶行為分析、瀏覽器指紋、HTTP異常檢測等技術(shù),借此更準(zhǔn)確地區(qū)分真實(shí)用戶流量與爬蟲流量。
以下圖為例,對(duì)比了在瀏覽網(wǎng)頁時(shí),真實(shí)用戶和爬蟲模擬的鼠標(biāo)軌跡。真實(shí)用戶的鼠標(biāo)軌跡幾乎是隨機(jī)的、無序的,而爬蟲模擬的鼠標(biāo)軌跡往往“橫平豎直”,很有目的性。借助類似這樣的方式,Bot Manager能更準(zhǔn)確地區(qū)分哪些流量來自真實(shí)用戶。不僅如此,Bot Manager還能結(jié)合用戶/爬蟲在網(wǎng)頁上鍵入信息時(shí)的鍵盤敲擊節(jié)奏和速度、觸控操作的行為模式,甚至手機(jī)和平板等移動(dòng)設(shè)備的陀螺儀方位變化等諸多因素,進(jìn)一步提高檢測和識(shí)別的準(zhǔn)確率。
通過檢測成功區(qū)分來自真實(shí)用戶和爬蟲的流量后,還需要根據(jù)其他特征對(duì)爬蟲流量進(jìn)行進(jìn)一步的分類。Bot Manager已針對(duì)超過1,500種已知爬蟲創(chuàng)建了一個(gè)目錄,并且還在不斷擴(kuò)充中。借此該解決方案可自動(dòng)根據(jù)不同類型爬蟲對(duì)業(yè)務(wù)或IT可能造成的影響。
隨后在惡意爬蟲流量的管理方面,Bot Manager并不像其他解決方案那樣采取“一刀切”的阻止措施,而是會(huì)根據(jù)實(shí)際情況更智能地酌情進(jìn)行處理。例如,對(duì)于依然無法有效區(qū)分的流量,可顯示驗(yàn)證碼幫助驗(yàn)證是否為真實(shí)人類流量;發(fā)起撞庫攻擊的爬蟲,可直接阻止;爬取價(jià)格信息的爬蟲,可提供虛假數(shù)據(jù);其他類型的爬蟲,可人為造成延遲,降低響應(yīng)速度,或進(jìn)一步進(jìn)行更密切的監(jiān)視……
所有這一切,都是為了在盡量不讓爬蟲運(yùn)營者警覺的情況下,盡可能減少惡意爬蟲對(duì)IT基礎(chǔ)設(shè)施和業(yè)務(wù)產(chǎn)生消極影響。
借助智能、強(qiáng)大的檢測、分類、管理和報(bào)表分析能力,Akamai Bot Manager為企業(yè)提供了爬蟲檢測和控制能力,幫助企業(yè)在保護(hù)自身運(yùn)營,維系更良好的客戶關(guān)系同時(shí),還能在如下幾方面獲得收益:
-提升可信度:了解哪些互動(dòng)是合理合法的,減少給用戶造成的摩擦,同時(shí)保護(hù)用戶,使其免受欺詐活動(dòng)的影響,進(jìn)而促進(jìn)消費(fèi)者、合作伙伴和您之間的相互信任關(guān)系。
-減輕補(bǔ)救措施造成的負(fù)擔(dān):降低因檢查遭入侵帳戶、更換被盜帳戶、處理用戶投訴和其他爬蟲程序攻擊不良影響而產(chǎn)生的資金成本和資源消耗。
-提高運(yùn)營控制能力:提高效率、降低業(yè)務(wù)風(fēng)險(xiǎn)和財(cái)務(wù)風(fēng)險(xiǎn)、控制IT支出,并對(duì)合作伙伴爬蟲程序進(jìn)行有策略的管理。
-制定由數(shù)據(jù)驅(qū)動(dòng)的、更好的決策:詳盡的分析和報(bào)告可幫您對(duì)客戶旅程、安全態(tài)勢、風(fēng)險(xiǎn)承受能力和IT運(yùn)營做出有創(chuàng)造性、有效的選擇。