谷歌SEO:如何優(yōu)化抓取預(yù)算?

來源:數(shù)聚梨海外營銷獨立站跨境電商
作者:數(shù)聚梨海外營銷獨立站跨境電商
時間:2021-10-14
1098
抓取預(yù)算(crawl budget)是指Google愿意花在抓取給定網(wǎng)站上的時間。雖然看起來谷歌有點全能,但他們的資源有限,而且網(wǎng)絡(luò)龐大。

640 (1).png

抓取預(yù)算(crawl budget)是指Google愿意花在抓取給定網(wǎng)站上的時間。雖然看起來谷歌有點全能,但他們的資源有限,而且網(wǎng)絡(luò)龐大。因此,他們必須以某種方式確定優(yōu)先級并分配一定的時間或資源來抓取給定的網(wǎng)站。現(xiàn)在他們根據(jù)網(wǎng)站在用戶中的受歡迎程度和內(nèi)容的新鮮度來確定優(yōu)先級,因為谷歌機器人有點渴望新的、前所未見的URL。今天,我們將專注于如何充分利用您擁有的抓取預(yù)算,這通常在任何情況下都是一個更容易使用的杠桿。

抓取預(yù)算問題的原因

那么抓取預(yù)算問題實際上是如何產(chǎn)生的呢?

1.刻面(facet)

現(xiàn)在我認(rèn)為網(wǎng)站上可能導(dǎo)致抓取預(yù)算問題的主要問題首先是方面。所以你可以想象在一個電子通信網(wǎng)站上,想象我們有一個筆記本電腦頁面。我們也許可以按大小過濾它。您有一個15英寸的屏幕和16 GB的RAM。那里可能有很多不同的排列,可能會導(dǎo)致大量的URL,而實際上我們只有一個頁面或一個類別——筆記本電腦頁面。然后可以對這些重新排序以創(chuàng)建其他執(zhí)行完全相同操作但必須單獨抓取的URL。同樣,它們的排序可能不同??赡軙蟹猪摰鹊取R虼?,您可以讓一個類別頁面生成大量URL。

2.搜索結(jié)果頁面(Search results pages)

經(jīng)常出現(xiàn)的其他一些事情是來自內(nèi)部站點搜索的搜索結(jié)果頁面通??梢?,特別是如果它們是分頁的,它們可能會生成許多不同的URL。

3.列表頁面(Listings pages)

如果您允許用戶上傳他們自己的列表或內(nèi)容,那么隨著時間的推移,如果您考慮工作板或eBay之類的東西,并且它可能有大量頁面,那么這可能會累積成大量的URL。

修復(fù)抓取預(yù)算問題

那么,您可以使用哪些工具來解決這些問題并充分利用您的抓取預(yù)算?作為基準(zhǔn),如果我們考慮正常URL與Googlebot的行為方式,我們會說,是的,它可以被抓取,是的,它可以被編入索引,是的,它通過了PageRank。所以像這樣的URL,如果我鏈接到我網(wǎng)站上的某個地方,然后谷歌遵循該鏈接并索引這些頁面,這些可能仍然具有頂部導(dǎo)航和站點范圍的導(dǎo)航。

因此,實際上傳遞到這些頁面的鏈接將被循環(huán)使用。當(dāng)我們通過這么多不同的頁面和這么多不同的過濾器進行鏈接時,會由于稀釋而造成一些損失。但最終,我們正在回收這個。沒有泄漏的PageRank的黑洞損失。

1.Robots.txt

現(xiàn)在處于相反的極端,您可以采用的最極端的抓取預(yù)算解決方案是robots.txt文件。如果你在robots.txt中屏蔽了一個頁面,那么它就無法被抓取。從技術(shù)上講,robots.txt中阻止的站點和頁面可以編入索引。您有時會看到網(wǎng)站顯示或SERP中顯示的帶有此元描述的頁面無法顯示,因為該頁面在robots.txt或此類消息中被阻止。

所以從技術(shù)上講,它們可以被索引,但在功能上,它們不會對任何東西或至少任何有效的東西進行排名。所以從技術(shù)上講,他們沒有通過PageRank。當(dāng)我們鏈接到這樣的頁面時,我們?nèi)栽趥鬟fPageRank。但是,如果它隨后在robots.txt中被阻止,則PageRank不會再進一步。所以我們創(chuàng)造了一個泄漏和一個黑洞。所以這是一個相當(dāng)嚴(yán)厲的解決方案,盡管它很容易實現(xiàn)。

2.Link-level nofollow

如果我們在主要筆記本電腦類別頁面上獲取指向這些方面的鏈接,并且我們在這些鏈接內(nèi)部放置了一個nofollow屬性,那么這將有一些優(yōu)點和缺點。我認(rèn)為更好的用例實際上會更多地出現(xiàn)在列表案例中。所以想象一下,如果我們經(jīng)營一個二手車網(wǎng)站,我們有數(shù)百萬種不同的二手車產(chǎn)品列表。現(xiàn)在我們真的不希望谷歌在這些單獨的列表上浪費時間,這可能取決于我們網(wǎng)站的規(guī)模。

但偶爾名人可能會上傳他們的汽車或類似的東西,或者可能會上傳非常稀有的汽車,這將開始獲得媒體鏈接。所以我們不想在robots.txt中阻止該頁面,因為在這種情況下我們會浪費這些外部鏈接。因此,我們可能會在指向該頁面的內(nèi)部鏈接上做些什么,我們可能會在內(nèi)部不關(guān)注該鏈接。所以這意味著它可以被抓取,但前提是它被找到了,只有當(dāng)谷歌以其他方式找到它時,比如通過外部鏈接或類似的東西。

我們在這里有一個中途之家?,F(xiàn)在從技術(shù)上講,這些nofollow是一個提示。根據(jù)我的經(jīng)驗,Google不會抓取僅通過內(nèi)部nofollow鏈接的頁面。如果它以其他方式找到頁面,顯然它仍然會抓取它。但總的來說,這可以作為一種限制爬網(wǎng)預(yù)算的有效方式,或者我應(yīng)該說使用爬網(wǎng)預(yù)算更有效。該頁面仍然可以被索引。

這就是我們在該示例中試圖實現(xiàn)的目標(biāo)。它仍然可以通過PageRank。這是我們試圖實現(xiàn)的另一件事。盡管您仍然通過此nofollow鏈接失去了一些PageRank。這仍然算作一個鏈接,因此您將失去一些原本會被傳送到該后續(xù)鏈接的PageRank。

3.Noindex,nofollow

noindex和nofollow對于ecomm網(wǎng)站上的這些頁面來說,顯然是一個非常常見的解決方案。在這種情況下,可以抓取頁面。但是一旦谷歌到達那個頁面,它會發(fā)現(xiàn)它是noindex,隨著時間的推移它會抓取它的次數(shù)會少得多,因為抓取noindex頁面的意義不大。再說一次,我們在這里有一個中途之家。

顯然,它不能被索引。它沒有索引。它不會向外傳遞PageRank。PageRank仍然傳遞到這個頁面,但因為它在head部分有一個nofollow,它不會向外傳遞PageRank。這不是一個很好的解決方案。為了節(jié)省抓取預(yù)算,我們必須在此處達成一些妥協(xié)。

4.Noindex,follow

所以很多人曾經(jīng)認(rèn)為,哦,好吧,解決這個問題的方法是使用noindex follow作為兩者的最佳選擇。所以你在其中一個頁面的頭部放置了一個noindex follow標(biāo)簽,哦,是的,每個人都是贏家,因為我們?nèi)匀坏玫搅送瑯拥呐佬泻锰?。我們?nèi)匀粵]有索引這種我們不想索引的新重復(fù)頁面,但PageRank解決方案是固定的。

幾年前,谷歌出來說,“哦,我們自己沒有意識到這一點,但實際上,隨著時間的推移,我們越來越少地抓取這個頁面,我們將不再看到鏈接,然后它就不會了?!彼运麄冇悬c暗示這不再是一種仍然通過PageRank的方式,最終它會被視為noindex和nofollow。再說一次,我們在那里有一種稍微妥協(xié)的解決方案。

5.規(guī)范(Canonical)

所有世界中真正最好的可能是規(guī)范的。使用規(guī)范標(biāo)簽,隨著時間的推移,它仍然會被抓取得少一點,規(guī)范化的版本,很棒。它仍然不會被索引,規(guī)范化的版本,很好,它仍然通過PageRank。所以這看起來很棒。在很多情況下,這似乎是完美的。但這只有在頁面接近足夠重復(fù)的情況下才有效,谷歌愿意將它們視為重復(fù)并尊重規(guī)范。如果他們不愿意將它們視為重復(fù)項,那么您可能不得不重新使用noindex?;蛘撸绻J(rèn)為實際上這個URL根本沒有存在的理由,我不知道這種錯誤的順序組合是如何產(chǎn)生的,但這似乎毫無意義。

6.301

我不會再鏈接到它了。但是,如果有些人仍然以某種方式找到URL,我們可以使用301作為一種經(jīng)濟,最終會表現(xiàn)得非常好......我會說比規(guī)范和noindex更能節(jié)省抓取預(yù)算,因為谷歌沒有甚至不必在極少數(shù)情況下查看頁面,它確實會檢查它,因為它只是遵循301。它將解決我們的索引問題,并且將通過PageRank。但顯然,這里的權(quán)衡是用戶也不能訪問這個URL,所以我們必須接受。

實施爬網(wǎng)預(yù)算策略

綜上所述,我們將如何實際使用這些策略?那么,如果您想進行爬網(wǎng)預(yù)算項目,我會推薦哪些活動?不太直觀的一種是速度。就像我之前說的,谷歌正在分配一定量的時間或資源來抓取給定的網(wǎng)站。因此,如果您的站點非???,如果您的服務(wù)器響應(yīng)時間很短,如果您使用輕量級HTML,它們將在相同的時間內(nèi)瀏覽更多頁面。

所以這違反直覺是解決這個問題的好方法。日志分析,這有點傳統(tǒng)。通常,您網(wǎng)站上的哪些頁面或哪些參數(shù)實際上消耗了您所有的抓取預(yù)算是非常不直觀的。大型站點上的日志分析通常會產(chǎn)生令人驚訝的結(jié)果,因此您可能會考慮這一點。然后實際使用其中一些工具。

因此,我們認(rèn)為用戶甚至不需要查看的冗余URL,我們可以301。用戶確實需要查看的變體,我們可以查看規(guī)范或noindex標(biāo)簽。但我們也可能希望首先避免鏈接到它們,這樣我們就不會因為稀釋或死胡同而將某種程度的PageRank丟失到那些規(guī)范化或無索引變體中。

Robots.txt和nofollow,正如我在瀏覽它時暗示的那樣,這些是您希望非常謹(jǐn)慎地使用的策略,因為它們確實會造成這些PageRank的死胡同。如果您的網(wǎng)站上有一個您只使用的站點地圖對于新鮮或最近的URL,您最近更改的URL,然后因為Googlebot如此渴望,就像我說的那樣,對新鮮內(nèi)容,他們將開始頻繁地抓取此站點地圖。因此,您可以使用這種策略將抓取預(yù)算定向到新的URL,這樣每個人都會贏。

Googlebot只想查看新的網(wǎng)址。您可能只想讓Googlebot看到新的網(wǎng)址。因此,如果您有一個僅用于該目的的站點地圖,那么每個人都會獲勝,這可能是一個很好且易于實施的技巧。所以這就是全部。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:數(shù)聚梨海外營銷獨立站跨境電商
版權(quán)說明:本文內(nèi)容來自于數(shù)聚梨海外營銷獨立站跨境電商,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多