谷歌SEO：如何優(yōu)化抓取預(yù)算？

來源：數(shù)聚梨海外營銷獨立站跨境電商

作者：數(shù)聚梨海外營銷獨立站跨境電商

時間：2021-10-14

抓取預(yù)算（crawl budget）是指Google愿意花在抓取給定網(wǎng)站上的時間。雖然看起來谷歌有點全能，但他們的資源有限，而且網(wǎng)絡(luò)龐大。

640 （1）.png

抓取預(yù)算（crawl budget）是指Google愿意花在抓取給定網(wǎng)站上的時間。雖然看起來谷歌有點全能，但他們的資源有限，而且網(wǎng)絡(luò)龐大。因此，他們必須以某種方式確定優(yōu)先級并分配一定的時間或資源來抓取給定的網(wǎng)站。現(xiàn)在他們根據(jù)網(wǎng)站在用戶中的受歡迎程度和內(nèi)容的新鮮度來確定優(yōu)先級，因為谷歌機器人有點渴望新的、前所未見的URL。今天，我們將專注于如何充分利用您擁有的抓取預(yù)算，這通常在任何情況下都是一個更容易使用的杠桿。

抓取預(yù)算問題的原因

那么抓取預(yù)算問題實際上是如何產(chǎn)生的呢？

1.刻面（facet）

現(xiàn)在我認為網(wǎng)站上可能導致抓取預(yù)算問題的主要問題首先是方面。所以你可以想象在一個電子通信網(wǎng)站上，想象我們有一個筆記本電腦頁面。我們也許可以按大小過濾它。您有一個15英寸的屏幕和16 GB的RAM。那里可能有很多不同的排列，可能會導致大量的URL，而實際上我們只有一個頁面或一個類別——筆記本電腦頁面。然后可以對這些重新排序以創(chuàng)建其他執(zhí)行完全相同操作但必須單獨抓取的URL。同樣，它們的排序可能不同?？赡軙蟹猪摰鹊?。因此，您可以讓一個類別頁面生成大量URL。

2.搜索結(jié)果頁面（Search results pages）

經(jīng)常出現(xiàn)的其他一些事情是來自內(nèi)部站點搜索的搜索結(jié)果頁面通?？梢?，特別是如果它們是分頁的，它們可能會生成許多不同的URL。

3.列表頁面（Listings pages）

如果您允許用戶上傳他們自己的列表或內(nèi)容，那么隨著時間的推移，如果您考慮工作板或eBay之類的東西，并且它可能有大量頁面，那么這可能會累積成大量的URL。

修復(fù)抓取預(yù)算問題

那么，您可以使用哪些工具來解決這些問題并充分利用您的抓取預(yù)算？作為基準，如果我們考慮正常URL與Googlebot的行為方式，我們會說，是的，它可以被抓取，是的，它可以被編入索引，是的，它通過了PageRank。所以像這樣的URL，如果我鏈接到我網(wǎng)站上的某個地方，然后谷歌遵循該鏈接并索引這些頁面，這些可能仍然具有頂部導航和站點范圍的導航。

因此，實際上傳遞到這些頁面的鏈接將被循環(huán)使用。當我們通過這么多不同的頁面和這么多不同的過濾器進行鏈接時，會由于稀釋而造成一些損失。但最終，我們正在回收這個。沒有泄漏的PageRank的黑洞損失。

1.Robots.txt

現(xiàn)在處于相反的極端，您可以采用的最極端的抓取預(yù)算解決方案是robots.txt文件。如果你在robots.txt中屏蔽了一個頁面，那么它就無法被抓取。從技術(shù)上講，robots.txt中阻止的站點和頁面可以編入索引。您有時會看到網(wǎng)站顯示或SERP中顯示的帶有此元描述的頁面無法顯示，因為該頁面在robots.txt或此類消息中被阻止。

所以從技術(shù)上講，它們可以被索引，但在功能上，它們不會對任何東西或至少任何有效的東西進行排名。所以從技術(shù)上講，他們沒有通過PageRank。當我們鏈接到這樣的頁面時，我們?nèi)栽趥鬟fPageRank。但是，如果它隨后在robots.txt中被阻止，則PageRank不會再進一步。所以我們創(chuàng)造了一個泄漏和一個黑洞。所以這是一個相當嚴厲的解決方案，盡管它很容易實現(xiàn)。

2.Link-level nofollow

如果我們在主要筆記本電腦類別頁面上獲取指向這些方面的鏈接，并且我們在這些鏈接內(nèi)部放置了一個nofollow屬性，那么這將有一些優(yōu)點和缺點。我認為更好的用例實際上會更多地出現(xiàn)在列表案例中。所以想象一下，如果我們經(jīng)營一個二手車網(wǎng)站，我們有數(shù)百萬種不同的二手車產(chǎn)品列表。現(xiàn)在我們真的不希望谷歌在這些單獨的列表上浪費時間，這可能取決于我們網(wǎng)站的規(guī)模。

但偶爾名人可能會上傳他們的汽車或類似的東西，或者可能會上傳非常稀有的汽車，這將開始獲得媒體鏈接。所以我們不想在robots.txt中阻止該頁面，因為在這種情況下我們會浪費這些外部鏈接。因此，我們可能會在指向該頁面的內(nèi)部鏈接上做些什么，我們可能會在內(nèi)部不關(guān)注該鏈接。所以這意味著它可以被抓取，但前提是它被找到了，只有當谷歌以其他方式找到它時，比如通過外部鏈接或類似的東西。

我們在這里有一個中途之家?，F(xiàn)在從技術(shù)上講，這些nofollow是一個提示。根據(jù)我的經(jīng)驗，Google不會抓取僅通過內(nèi)部nofollow鏈接的頁面。如果它以其他方式找到頁面，顯然它仍然會抓取它。但總的來說，這可以作為一種限制爬網(wǎng)預(yù)算的有效方式，或者我應(yīng)該說使用爬網(wǎng)預(yù)算更有效。該頁面仍然可以被索引。

這就是我們在該示例中試圖實現(xiàn)的目標。它仍然可以通過PageRank。這是我們試圖實現(xiàn)的另一件事。盡管您仍然通過此nofollow鏈接失去了一些PageRank。這仍然算作一個鏈接，因此您將失去一些原本會被傳送到該后續(xù)鏈接的PageRank。

3.Noindex,nofollow

noindex和nofollow對于ecomm網(wǎng)站上的這些頁面來說，顯然是一個非常常見的解決方案。在這種情況下，可以抓取頁面。但是一旦谷歌到達那個頁面，它會發(fā)現(xiàn)它是noindex，隨著時間的推移它會抓取它的次數(shù)會少得多，因為抓取noindex頁面的意義不大。再說一次，我們在這里有一個中途之家。

顯然，它不能被索引。它沒有索引。它不會向外傳遞PageRank。PageRank仍然傳遞到這個頁面，但因為它在head部分有一個nofollow，它不會向外傳遞PageRank。這不是一個很好的解決方案。為了節(jié)省抓取預(yù)算，我們必須在此處達成一些妥協(xié)。

4.Noindex,follow

所以很多人曾經(jīng)認為，哦，好吧，解決這個問題的方法是使用noindex follow作為兩者的最佳選擇。所以你在其中一個頁面的頭部放置了一個noindex follow標簽，哦，是的，每個人都是贏家，因為我們?nèi)匀坏玫搅送瑯拥呐佬泻锰帯Ｎ覀內(nèi)匀粵]有索引這種我們不想索引的新重復(fù)頁面，但PageRank解決方案是固定的。

幾年前，谷歌出來說，“哦，我們自己沒有意識到這一點，但實際上，隨著時間的推移，我們越來越少地抓取這個頁面，我們將不再看到鏈接，然后它就不會了?！彼运麄冇悬c暗示這不再是一種仍然通過PageRank的方式，最終它會被視為noindex和nofollow。再說一次，我們在那里有一種稍微妥協(xié)的解決方案。

5.規(guī)范（Canonical）

所有世界中真正最好的可能是規(guī)范的。使用規(guī)范標簽，隨著時間的推移，它仍然會被抓取得少一點，規(guī)范化的版本，很棒。它仍然不會被索引，規(guī)范化的版本，很好，它仍然通過PageRank。所以這看起來很棒。在很多情況下，這似乎是完美的。但這只有在頁面接近足夠重復(fù)的情況下才有效，谷歌愿意將它們視為重復(fù)并尊重規(guī)范。如果他們不愿意將它們視為重復(fù)項，那么您可能不得不重新使用noindex。或者，如果您認為實際上這個URL根本沒有存在的理由，我不知道這種錯誤的順序組合是如何產(chǎn)生的，但這似乎毫無意義。

6.301

我不會再鏈接到它了。但是，如果有些人仍然以某種方式找到URL，我們可以使用301作為一種經(jīng)濟，最終會表現(xiàn)得非常好......我會說比規(guī)范和noindex更能節(jié)省抓取預(yù)算，因為谷歌沒有甚至不必在極少數(shù)情況下查看頁面，它確實會檢查它，因為它只是遵循301。它將解決我們的索引問題，并且將通過PageRank。但顯然，這里的權(quán)衡是用戶也不能訪問這個URL，所以我們必須接受。

實施爬網(wǎng)預(yù)算策略

綜上所述，我們將如何實際使用這些策略？那么，如果您想進行爬網(wǎng)預(yù)算項目，我會推薦哪些活動？不太直觀的一種是速度。就像我之前說的，谷歌正在分配一定量的時間或資源來抓取給定的網(wǎng)站。因此，如果您的站點非?？欤绻姆?wù)器響應(yīng)時間很短，如果您使用輕量級HTML，它們將在相同的時間內(nèi)瀏覽更多頁面。

所以這違反直覺是解決這個問題的好方法。日志分析，這有點傳統(tǒng)。通常，您網(wǎng)站上的哪些頁面或哪些參數(shù)實際上消耗了您所有的抓取預(yù)算是非常不直觀的。大型站點上的日志分析通常會產(chǎn)生令人驚訝的結(jié)果，因此您可能會考慮這一點。然后實際使用其中一些工具。

因此，我們認為用戶甚至不需要查看的冗余URL，我們可以301。用戶確實需要查看的變體，我們可以查看規(guī)范或noindex標簽。但我們也可能希望首先避免鏈接到它們，這樣我們就不會因為稀釋或死胡同而將某種程度的PageRank丟失到那些規(guī)范化或無索引變體中。

Robots.txt和nofollow，正如我在瀏覽它時暗示的那樣，這些是您希望非常謹慎地使用的策略，因為它們確實會造成這些PageRank的死胡同。如果您的網(wǎng)站上有一個您只使用的站點地圖對于新鮮或最近的URL，您最近更改的URL，然后因為Googlebot如此渴望，就像我說的那樣，對新鮮內(nèi)容，他們將開始頻繁地抓取此站點地圖。因此，您可以使用這種策略將抓取預(yù)算定向到新的URL，這樣每個人都會贏。

Googlebot只想查看新的網(wǎng)址。您可能只想讓Googlebot看到新的網(wǎng)址。因此，如果您有一個僅用于該目的的站點地圖，那么每個人都會獲勝，這可能是一個很好且易于實施的技巧。所以這就是全部。

Google SEO 谷歌

上一篇：2022年我們可以運營的頂級SEO策略

原文鏈接：點擊前往 >

文章來源：數(shù)聚梨海外營銷獨立站跨境電商

版權(quán)說明：本文內(nèi)容來自于數(shù)聚梨海外營銷獨立站跨境電商，本站不擁有所有權(quán)，不承擔相關(guān)法律責任。文章內(nèi)容系作者個人觀點，不代表快出海對觀點贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章