有問題就問搜索引擎、足不出戶購買商品、交通狀況有地圖指引、控制手機只需發(fā)出語音……信息技術改變世界,科技讓生活更便捷。在Yandex,技術人員們正通過自行開發(fā)的技術,給這個瞬息萬變的世界施上魔法?今天讓我們先來揭秘最強魔法——Yandex的核心搜索排名技術——神奇的MatrixNet。
什么是MatrixNet
2009年Yandex引進了新機器學習方法——MatrixNet??惯^度擬合性是該方法的重要特點。這個方法允許考慮到很多排名因素,同時不增加評測員的評測數(shù)量更不用擔心機器會找到不存在的規(guī)律。Yandex搜索引擎排名程序就是基于MartixNet機器學習方法的。
借助MatrixNet方法可以構建很長、很復雜、考慮到很多因素與因素組合的排名公式。其他機器學習方法允許構建因素數(shù)量更少的、更短的公式,或要求給定更大的訓練樣本。MatrixNet構建數(shù)萬個系數(shù)的公式,所以搜索準確性明顯提高。
MatrixNet方法具有另一種重要特點—它允許調(diào)整搜索查詢范圍較窄的排名公式。例如,可以專門提高音樂查詢相關的搜索效率。與此同時,其他查詢分類相關的排名不會受影響。我們可以把排名公式以易于了解的形式表達出來,假如,它是一種具有多手柄的復雜機器,那么基于其他技術機器的每把手柄影響所有的查詢,而MatrixNet允許我們針對具體的查詢類型單獨調(diào)整每把手柄。
此外,MatrixNet針對排名因素不同的范圍值自動選擇靈敏度。這種過程有點與機場環(huán)境相同—在飛機起飛反復不停的噪音需要聽到人們的聲音。如果蒙上耳朵,仍會聽到飛機噪音,而人聲卻聽不到。所以機場工作人員有專門的對大噪音靈敏度底的耳機—這樣可以聽到人們的聲音。
排名程序是運作原理
因為搜索引擎的數(shù)據(jù)處理量很大,根據(jù)每個搜索查詢引擎需要處理數(shù)百萬的網(wǎng)頁,確定其相關性以及進行排序—相關性最高的網(wǎng)頁排在上面。為了輪流檢查每個網(wǎng)頁屬性需要很多能夠很快處理所有網(wǎng)頁相關數(shù)據(jù)的服務器或者需要很長時間,不過,用戶不能等待這么久。MatrixNet允許瞬間檢查很多因素,且不需要大幅擴大計算能力。
搜索程序在數(shù)千個服務器同時進行。每個服務器根據(jù)其搜索索引的部分產(chǎn)生最佳搜索結果清單。該清單包括搜索查詢最相關的網(wǎng)頁。以后,所有的清單合并在一起以及根據(jù)MatrixNet排名公式對所有的清單中的網(wǎng)頁進行排名。結果,相關性最高的網(wǎng)站排名在最前位置,而用戶能夠幾乎瞬間獲得答案。