有問(wèn)題就問(wèn)搜索引擎、足不出戶(hù)購(gòu)買(mǎi)商品、交通狀況有地圖指引、控制手機(jī)只需發(fā)出語(yǔ)音……信息技術(shù)改變世界,科技讓生活更便捷。在Yandex,技術(shù)人員們正通過(guò)自行開(kāi)發(fā)的技術(shù),給這個(gè)瞬息萬(wàn)變的世界施上魔法?今天讓我們先來(lái)揭秘最強(qiáng)魔法——Yandex的核心搜索排名技術(shù)——神奇的MatrixNet。
什么是MatrixNet
2009年Yandex引進(jìn)了新機(jī)器學(xué)習(xí)方法——MatrixNet??惯^(guò)度擬合性是該方法的重要特點(diǎn)。這個(gè)方法允許考慮到很多排名因素,同時(shí)不增加評(píng)測(cè)員的評(píng)測(cè)數(shù)量更不用擔(dān)心機(jī)器會(huì)找到不存在的規(guī)律。Yandex搜索引擎排名程序就是基于MartixNet機(jī)器學(xué)習(xí)方法的。
借助MatrixNet方法可以構(gòu)建很長(zhǎng)、很復(fù)雜、考慮到很多因素與因素組合的排名公式。其他機(jī)器學(xué)習(xí)方法允許構(gòu)建因素?cái)?shù)量更少的、更短的公式,或要求給定更大的訓(xùn)練樣本。MatrixNet構(gòu)建數(shù)萬(wàn)個(gè)系數(shù)的公式,所以搜索準(zhǔn)確性明顯提高。
MatrixNet方法具有另一種重要特點(diǎn)—它允許調(diào)整搜索查詢(xún)范圍較窄的排名公式。例如,可以專(zhuān)門(mén)提高音樂(lè)查詢(xún)相關(guān)的搜索效率。與此同時(shí),其他查詢(xún)分類(lèi)相關(guān)的排名不會(huì)受影響。我們可以把排名公式以易于了解的形式表達(dá)出來(lái),假如,它是一種具有多手柄的復(fù)雜機(jī)器,那么基于其他技術(shù)機(jī)器的每把手柄影響所有的查詢(xún),而MatrixNet允許我們針對(duì)具體的查詢(xún)類(lèi)型單獨(dú)調(diào)整每把手柄。
此外,MatrixNet針對(duì)排名因素不同的范圍值自動(dòng)選擇靈敏度。這種過(guò)程有點(diǎn)與機(jī)場(chǎng)環(huán)境相同—在飛機(jī)起飛反復(fù)不停的噪音需要聽(tīng)到人們的聲音。如果蒙上耳朵,仍會(huì)聽(tīng)到飛機(jī)噪音,而人聲卻聽(tīng)不到。所以機(jī)場(chǎng)工作人員有專(zhuān)門(mén)的對(duì)大噪音靈敏度底的耳機(jī)—這樣可以聽(tīng)到人們的聲音。
排名程序是運(yùn)作原理
因?yàn)樗阉饕娴臄?shù)據(jù)處理量很大,根據(jù)每個(gè)搜索查詢(xún)引擎需要處理數(shù)百萬(wàn)的網(wǎng)頁(yè),確定其相關(guān)性以及進(jìn)行排序—相關(guān)性最高的網(wǎng)頁(yè)排在上面。為了輪流檢查每個(gè)網(wǎng)頁(yè)屬性需要很多能夠很快處理所有網(wǎng)頁(yè)相關(guān)數(shù)據(jù)的服務(wù)器或者需要很長(zhǎng)時(shí)間,不過(guò),用戶(hù)不能等待這么久。MatrixNet允許瞬間檢查很多因素,且不需要大幅擴(kuò)大計(jì)算能力。
搜索程序在數(shù)千個(gè)服務(wù)器同時(shí)進(jìn)行。每個(gè)服務(wù)器根據(jù)其搜索索引的部分產(chǎn)生最佳搜索結(jié)果清單。該清單包括搜索查詢(xún)最相關(guān)的網(wǎng)頁(yè)。以后,所有的清單合并在一起以及根據(jù)MatrixNet排名公式對(duì)所有的清單中的網(wǎng)頁(yè)進(jìn)行排名。結(jié)果,相關(guān)性最高的網(wǎng)站排名在最前位置,而用戶(hù)能夠幾乎瞬間獲得答案。