Google如何使用NLP更好地理解搜索查詢、內容?

來源:數(shù)聚梨海外營銷獨立站跨境電商
作者:數(shù)聚梨海外營銷獨立站跨境電商
時間:2022-12-06
2166
自然語言處理為Google上的語義搜索打開了大門。SEO需要了解轉向基于實體的搜索,因為這是Google搜索的未來。在本文中,我們將深入探討自然語言處理以及Google如何使用它來解釋搜索查詢和內容、實體挖掘等。

640 (1).png

自然語言處理為Google上的語義搜索打開了大門。SEO需要了解轉向基于實體的搜索,因為這是Google搜索的未來。在本文中,我們將深入探討自然語言處理以及Google如何使用它來解釋搜索查詢和內容、實體挖掘等。

什么是自然語言處理?

自然語言處理或NLP使理解單詞、句子和文本的含義以生成信息、知識或新文本成為可能。它由自然語言理解(NLU)和自然語言生成(NLG)組成——它允許對文本和自然語言進行語義解釋。NLP可用于:

·語音識別(文本到語音和語音到文本)。

·將先前捕獲的語音分割成單個單詞、句子和短語。

·識別單詞的基本形式和獲取語法信息。

·識別句子中單個單詞的功能(主語、動詞、賓語、冠詞等)

·提取句子和部分句子或短語的含義,例如形容詞短語(例如,“too long”)、介詞短語(例如,“to the river”)或名詞短語(例如,“the long party”)。

·識別句子上下文、句子關系和實體。

·語言文本分析、情感分析、翻譯(包括語音助手)、聊天機器人和底層問答系統(tǒng)。

以下是NLP的核心組件:

·標記化:將一個句子分成不同的術語。

·詞類標注:按賓語、主語、謂語、形容詞等對詞進行分類。

·詞依賴:根據(jù)語法規(guī)則識別詞之間的關系。

·詞形還原:確定一個詞是否具有不同的形式并將變體規(guī)范化為基本形式。例如,“cars”的基本形式是“car”。

·解析標簽:根據(jù)依賴關系連接的兩個單詞之間的關系標記單詞。

·命名實體分析和提?。鹤R別具有“已知”含義的單詞并將它們分配給實體類型的類。一般來說,命名實體是組織、人、產品、地點和事物(名詞)。在一個句子中,主語和賓語將被識別為實體。

·顯著性評分:確定文本與主題的關聯(lián)程度。顯著性通常由網絡上單詞的共同引用以及Wikipedia和Freebase等數(shù)據(jù)庫中實體之間的關系決定。經驗豐富的SEO從TF-IDF分析中知道類似的方法。

·情感分析:識別文本中表達的關于實體或主題的意見(觀點或態(tài)度)。

·文本分類:在宏觀層面,NLP將文本分類為內容類別。文本分類有助于確定文本的大致內容。

·文本分類和功能:NLP可以更進一步,確定內容的預期功能或目的。將搜索意圖與文檔匹配是非常有趣的。

·內容類型提取:基于結構模式或上下文,搜索引擎可以在沒有結構化數(shù)據(jù)的情況下確定文本的內容類型。文本的HTML、格式和數(shù)據(jù)類型(日期、位置、URL等)可以在不使用標記的情況下識別它是食譜、產品、事件還是其他內容類型。

·根據(jù)結構識別隱含含義:文本的格式可以改變其隱含含義。標題、換行符、列表和接近度傳達了對文本的次要理解。例如,當文本顯示在一個HTML排序的列表或一系列前面帶有數(shù)字的標題中時,它很可能是一個列表或排名。該結構不僅由HTML標記定義,還由渲染期間的視覺字體大小/粗細和接近度定義。

NLP在搜索中的應用

多年來,谷歌已經訓練了像BERT或MUM這樣的語言模型來解釋文本、搜索查詢,甚至是視頻和音頻內容。這些模型是通過自然語言處理提供的。谷歌搜索主要在以下幾個方面使用自然語言處理:

·解釋搜索查詢。

·文件主題和目的的分類。

·文檔、搜索查詢和社交媒體帖子中的實體分析。

·用于在語音搜索中生成精選片段和答案。

·視頻和音頻內容的解釋。

·知識圖譜的擴展和改進。

谷歌在2019年10月發(fā)布BERT更新時強調了理解自然語言在搜索中的重要性。搜索的核心是理解語言。無論您如何拼寫或組合查詢中的單詞,我們的工作都是找出您正在搜索的內容并從網絡上顯示有用的信息。盡管這些年來我們一直在不斷提高我們的語言理解能力,但有時我們仍然不能完全正確,尤其是對于復雜或對話式的查詢。事實上,這就是人們經常使用“keyword-ese”的原因之一,即輸入他們認為我們會理解的字符串,但實際上并不是他們自然提出問題的方式。

BERT&MUM:用于解釋搜索查詢和文檔的NLP

BERT據(jù)說是繼RankBrain之后幾年谷歌搜索領域最關鍵的進步。基于NLP,此更新旨在改進搜索查詢解釋,最初影響了10%的所有搜索查詢。BERT不僅在查詢解釋中發(fā)揮作用,而且在排名和編譯特色片段以及解釋文檔中的文本調查問卷方面發(fā)揮作用。通過將BERT模型應用于搜索中的排名和特色片段,我們能夠做得更好,幫助你找到有用的信息。事實上,在對結果進行排名時,BERT將幫助Search更好地理解美國十分之一的英語搜索,隨著時間的推移,我們將把它帶到更多的語言和地區(qū)。

MUM更新的推出是在Search On'21上宣布的。同樣基于NLP,MUM是多語言的,使用多模態(tài)數(shù)據(jù)回答復雜的搜索查詢,并處理來自不同媒體格式的信息。除了文本,MUM還可以理解圖像、視頻和音頻文件。MUM結合了多種技術,使Google搜索更加語義化和基于上下文,從而改善用戶體驗。借助MUM,Google希望以不同的媒體格式回答復雜的搜索查詢,以加入用戶的客戶旅程。與BERT和MUM一樣,NLP是更好的語義理解和更以用戶為中心的搜索引擎的重要一步。

通過實體理解搜索查詢和內容標志著從“字符串”到“事物”的轉變。谷歌的目標是發(fā)展對搜索查詢和內容的語義理解。通過識別搜索查詢中的實體,含義和搜索意圖變得更加清晰。搜索詞的單個詞不再獨立,而是在整個搜索查詢的上下文中考慮。解釋搜索詞的魔力發(fā)生在查詢處理中。以下步驟在這里很重要:

1.識別搜索查詢所在的主題本體。如果主題上下文明確,Google可以選擇文本文檔、視頻和圖像的內容語料庫作為可能合適的搜索結果。這對于不明確的搜索詞尤其困難。

2.在搜索詞中識別實體及其含義(命名實體識別)。

3.了解搜索查詢的語義。

4.識別搜索意圖。

5.搜索查詢的語義注釋。

6.細化搜索詞。

NLP是實體挖掘最關鍵的方法論

自然語言處理將在谷歌識別實體及其含義方面發(fā)揮最重要的作用,使從非結構化數(shù)據(jù)中提取知識成為可能。在此基礎上,可以創(chuàng)建實體和知識圖譜之間的關系。語音標記部分對此有所幫助。名詞是潛在的實體,動詞通常代表實體之間的關系。形容詞描述實體,副詞描述關系。到目前為止,谷歌只很少使用非結構化信息來提供知識圖譜。

可以假設:

·到目前為止,知識圖中記錄的實體只是冰山一角。

·谷歌還在向另一個知識庫提供有關長尾實體的信息。

·NLP在為這個知識庫提供信息方面發(fā)揮著核心作用。

Google在NLP方面已經相當出色,但在評估自動提取的準確性信息方面尚未取得令人滿意的結果。從網站等非結構化數(shù)據(jù)中對知識圖譜等知識數(shù)據(jù)庫進行數(shù)據(jù)挖掘是復雜的。除了信息的完整性之外,正確性也是必不可少的。如今,谷歌通過NLP保證大規(guī)模的完整性,但證明正確性和準確性是困難的。這可能就是為什么谷歌仍然對SERP中長尾實體信息的直接定位采取謹慎態(tài)度的原因。

基于實體的索引與經典的基于內容的索引

蜂鳥更新的引入為語義搜索鋪平了道路。它還使知識圖——以及實體——成為焦點。知識圖是谷歌的實體索引。所有屬性、文檔和數(shù)字圖像(例如配置文件和域)都圍繞實體組織在基于實體的索引中。知識圖目前與經典的谷歌索引并行使用以進行排名。假設Google在搜索查詢中識別出它與知識圖中記錄的實體有關。在這種情況下,將訪問兩個索引中的信息,實體是焦點,與實體相關的所有信息和文檔也會被考慮在內。經典的Google索引和知識圖譜或其他類型的知識庫之間需要一個接口或API,以在兩個索引之間交換信息。這個實體內容接口是關于找出:

·一段內容中是否有實體。

·是否存在內容所涉及的主要實體。

·可以將主要實體分配給哪些本體或多個本體。

·分配內容的作者或實體。

·內容中的實體如何相互關聯(lián)。

·哪些屬性或屬性將分配給實體。

我們才剛剛開始感受到SERP中基于實體的搜索的影響,因為谷歌理解單個實體的含義很慢。通過社會相關性自上而下地理解實體。最相關的內容分別記錄在Wikidata和Wikipedia中。最大的任務將是識別和驗證長尾實體。還不清楚谷歌檢查哪些標準以將實體包含在知識圖中。在2019年1月的德國網站管理員環(huán)聊中,谷歌的John Mueller表示,他們正在研究一種更直接的方式來為每個人創(chuàng)建實體。

我認為我們沒有明確的答案。我認為我們有不同的算法來檢查類似的東西,然后我們使用不同的標準將整個事物拉在一起,將其分開并識別哪些事物是真正獨立的實體,它們只是變體或不太獨立的實體......但到目前為止我擔心我已經看到了,這是我們正在努力擴展的東西,我想它也會更容易在知識圖中獲得特色。但我不知道具體的計劃是什么。NLP在擴大這一挑戰(zhàn)方面發(fā)揮著至關重要的作用。diffbot演示中的示例展示了NLP可用于實體挖掘和構建知識圖譜的效果。

Google搜索中的NLP將繼續(xù)存在

RankBrain被引入以通過向量空間分析來解釋搜索查詢和術語,而以前沒有以這種方式使用過。BERT和MUM使用自然語言處理來解釋搜索查詢和文檔。除了對搜索查詢和內容的解釋之外,MUM和BERT還打開了大門,允許知識圖譜等知識數(shù)據(jù)庫大規(guī)模增長,從而在谷歌推進語義搜索。谷歌搜索通過核心更新的發(fā)展也與MUM和BERT密切相關,最終與NLP和語義搜索密切相關。未來,我們將看到越來越多的基于實體的Google搜索結果取代經典的基于短語的索引和排名。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:數(shù)聚梨海外營銷獨立站跨境電商
版權說明:本文內容來自于數(shù)聚梨海外營銷獨立站跨境電商,本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家