在任何領(lǐng)域做出的最困難的決定之一是有意識(shí)地選擇錯(cuò)過(guò)最后期限。在過(guò)去的幾個(gè)月中,由一些才華橫溢的工程師,數(shù)據(jù)科學(xué)家,項(xiàng)目經(jīng)理,編輯和市場(chǎng)人員組成的團(tuán)隊(duì)努力于2020年9月30日發(fā)布新的Page Authority(PA)。幾乎在當(dāng)前PA的所有方面都沒(méi)有,但是我們最近的質(zhì)量控制措施顯示了一個(gè)我們無(wú)法忽視的異常。
因此,我們做出了艱難的決定,推遲了Page Authority 2.0的發(fā)布。因此,讓我花點(diǎn)時(shí)間回顧一下我們?nèi)绾蔚竭_(dá)這里,離開(kāi)我們的地方以及我們打算如何進(jìn)行的步驟。上一頁(yè)頁(yè)面授權(quán)模型針對(duì)SERP進(jìn)行了訓(xùn)練,試圖根據(jù)從鏈接資源管理器反向鏈接索引計(jì)算出的一組鏈接度量標(biāo)準(zhǔn)來(lái)預(yù)測(cè)一個(gè)URL是否會(huì)在另一個(gè)URL上排名。此類模型的關(guān)鍵問(wèn)題在于,它無(wú)法有意義地解決一組特定鏈接指標(biāo)的最大強(qiáng)度。
例如,想象一下Internet上最強(qiáng)大的URL,這些URL的鏈接是:Google,Youtube,F(xiàn)acebook的主頁(yè),或跟隨的社交網(wǎng)絡(luò)按鈕的共享URL。沒(méi)有任何SERP可以使這些URL相互抵觸。取而代之的是,這些功能非常強(qiáng)大的URL通常排名第一,其后的指標(biāo)則大大降低。試想一下,如果邁克爾·喬丹,科比·布萊恩特和勒布朗·詹姆斯各自對(duì)高中生都一對(duì)一地抓緊時(shí)間。每個(gè)人每次都會(huì)贏。但是,從邁克爾·喬丹,科比·布萊恩特或勒布朗·詹姆斯是否會(huì)在一對(duì)一的比賽中獲勝,我們很難從這些結(jié)果中推斷出來(lái)。
當(dāng)負(fù)責(zé)重新訪問(wèn)域授權(quán)時(shí),我們最終選擇了一個(gè)擁有豐富經(jīng)驗(yàn)的模型:原始的SERP培訓(xùn)方法(盡管有很多調(diào)整)。借助Page Authority,我們決定通過(guò)預(yù)測(cè)哪個(gè)頁(yè)面的自然訪問(wèn)量會(huì)更多,一起采用另一種培訓(xùn)方法。該模型提供了一些有希望的品質(zhì),例如能夠比較不在同一SERP上出現(xiàn)的URL,但也帶來(lái)了其他困難,例如頁(yè)面具有較高的鏈接公平性,而只是處于不經(jīng)常搜索的主題區(qū)域。我們解決了許多此類問(wèn)題,例如增強(qiáng)培訓(xùn)集,以使用非鏈接指標(biāo)來(lái)衡量競(jìng)爭(zhēng)力。
衡量新的Page Authority的質(zhì)量
結(jié)果是而且非常令人鼓舞。首先,新模型顯然預(yù)測(cè)了一頁(yè)將比另一頁(yè)擁有更多有價(jià)值的自然流量的可能性。這是預(yù)料之中的,因?yàn)樾履P褪轻槍?duì)此特定目標(biāo)的,而當(dāng)前的“頁(yè)面授權(quán)機(jī)構(gòu)”僅試圖預(yù)測(cè)一個(gè)頁(yè)面是否會(huì)排在另一頁(yè)面之上。
其次,我們發(fā)現(xiàn),新模型預(yù)測(cè)的一頁(yè)是否比以前的Page Authority更好。這特別令人愉悅,因?yàn)樗刮覀冊(cè)S多擔(dān)憂,因?yàn)樾碌呐嘤?xùn)模型使新模型在舊質(zhì)量控制方面表現(xiàn)不佳。新模型在預(yù)測(cè)SERP方面比當(dāng)前的PA好多少?在每個(gè)時(shí)間間隔(一直下降到位置4對(duì)5)上,新模型都與當(dāng)前模型并列或表現(xiàn)不佳。它永遠(yuǎn)不會(huì)丟失。
一切都很好。然后,我們開(kāi)始分析異常值。我喜歡稱其為“看起來(lái)愚蠢嗎?”測(cè)試。機(jī)器學(xué)習(xí)會(huì)像人類一樣犯錯(cuò)誤,但是人類傾向于以非常特殊的方式犯錯(cuò)誤。當(dāng)一個(gè)人犯了一個(gè)錯(cuò)誤時(shí),我們經(jīng)常會(huì)確切地理解為什么會(huì)犯錯(cuò)。ML并非如此,尤其是神經(jīng)網(wǎng)絡(luò)。我們?cè)谛碌哪J较聦⑴銮删哂辛阕匀辉L問(wèn)量的URL的URL授予了URL,并將其包含在訓(xùn)練集中以學(xué)習(xí)這些錯(cuò)誤。我們很快就看到90+的奇異PA下降到了更合理的60和70年代……又是一個(gè)勝利。
品牌搜索的問(wèn)題
網(wǎng)絡(luò)上一些最受歡迎的關(guān)鍵字是導(dǎo)航性的。人們?cè)贕oogle上搜索Facebook,Youtube,甚至Google本身。這些關(guān)鍵字相對(duì)于其他關(guān)鍵字的搜索量是天文數(shù)字。隨后,少數(shù)幾個(gè)強(qiáng)大的品牌可能會(huì)對(duì)將總搜索量作為其核心培訓(xùn)目標(biāo)一部分的模型產(chǎn)生巨大影響。最后一個(gè)測(cè)試包括將當(dāng)前的頁(yè)面授權(quán)機(jī)構(gòu)與新的頁(yè)面授權(quán)機(jī)構(gòu)進(jìn)行比較,以確定是否存在任何離奇的異常值(PA發(fā)生明顯變化且沒(méi)有明顯原因)。首先,讓我們看一下鏈接根域的LOG與頁(yè)面授權(quán)的簡(jiǎn)單比較。
不是太寒酸。我們看到鏈接根域和頁(yè)面權(quán)限之間通常呈正相關(guān)。但是你能發(fā)現(xiàn)奇怪之處嗎?繼續(xù),花一點(diǎn)時(shí)間...此圖表中有兩個(gè)異?,F(xiàn)象:
·URL的主要分布與上方和下方的異常值之間存在一個(gè)奇怪的鴻溝。
·單個(gè)分?jǐn)?shù)的最大差異是PA99。PA99的數(shù)量很多,具有廣泛的鏈接根域。
這是一個(gè)可視化視圖,將有助于找出這些異常:
綠色和紅色之間的灰色空間代表分布的大部分與離群值之間的奇數(shù)間隙。異常值(紅色)趨于聚集在一起,尤其是在主要分布上方。當(dāng)然,我們可以看到PA 99s頂部的分布不均。請(qǐng)記住,這些問(wèn)題不足以使新的Page Authority模型不如當(dāng)前模型更準(zhǔn)確。但是,在進(jìn)一步檢查后,我們發(fā)現(xiàn)該模型確實(shí)產(chǎn)生的錯(cuò)誤非常嚴(yán)重,足以對(duì)客戶的決策產(chǎn)生不利影響。最好有一個(gè)到處都有一點(diǎn)點(diǎn)偏差的模型(因?yàn)镾EO所做的調(diào)整沒(méi)有令人難以置信的微調(diào)),比擁有一個(gè)大多數(shù)地方都適用但在少數(shù)情況下異常錯(cuò)誤的模型要好。
幸運(yùn)的是,我們對(duì)問(wèn)題出在哪里很有信心。似乎首頁(yè)的PA膨脹得過(guò)高,可能的罪魁禍?zhǔn)资怯?xùn)練集。在我們完成再培訓(xùn)之前,我們無(wú)法確定這是原因,但這是一個(gè)強(qiáng)有力的線索。就目前而言,我們處于良好狀態(tài),因?yàn)槲覀儞碛卸鄠€(gè)勝過(guò)現(xiàn)有Page Authority的候選模型。我們正處在漏洞壓縮階段,而不是模型構(gòu)建階段。但是,除非我們有信心它將引導(dǎo)我們的顧客朝正確的方向發(fā)展,否則我們不會(huì)發(fā)布新的分?jǐn)?shù)。我們高度重視客戶根據(jù)我們的指標(biāo)做出的決策,而不僅僅是這些指標(biāo)是否滿足某些統(tǒng)計(jì)標(biāo)準(zhǔn)。
考慮到所有這些,我們決定推遲啟動(dòng)Page Authority 2.0。這將為我們提供必要的時(shí)間來(lái)解決這些主要問(wèn)題并制定出出色的指標(biāo)。令人沮喪嗎?是的,但也有必要。與往常一樣,我們感謝您的耐心配合,我們期待產(chǎn)生我們有史以來(lái)發(fā)布的最佳Page Authority指標(biāo)。