Azure 認(rèn)知搜索中的 AI 擴(kuò)充

來(lái)源: Microsoft Azure
作者:Microsoft Azure
時(shí)間:2020-12-03
16907
AI擴(kuò)充是索引器的擴(kuò)展,可用于從圖像、Blob和其他非結(jié)構(gòu)化數(shù)據(jù)源中提取文本。利用擴(kuò)充和提取,可以使內(nèi)容在索引器輸出對(duì)象(搜索索引或知識(shí)存儲(chǔ))中更容易搜索。

AI擴(kuò)充是索引器的擴(kuò)展,可用于從圖像、Blob和其他非結(jié)構(gòu)化數(shù)據(jù)源中提取文本。利用擴(kuò)充和提取,可以使內(nèi)容在索引器輸出對(duì)象(搜索索引或知識(shí)存儲(chǔ))中更容易搜索。

提取和擴(kuò)充使用附加到索引器驅(qū)動(dòng)管道上的認(rèn)知技能來(lái)實(shí)現(xiàn)。可以使用Microsoft的內(nèi)置技能,也可以將外部處理嵌入到所創(chuàng)建的自定義技能中。自定義技能的示例可能包括面向特定領(lǐng)域(例如金融、科技出版或醫(yī)療)的自定義實(shí)體模塊或文檔分類(lèi)器。

內(nèi)置技能分為以下類(lèi)別:

“自然語(yǔ)言處理”技能包括實(shí)體識(shí)別、語(yǔ)言檢測(cè)、關(guān)鍵短語(yǔ)提取、文本操作、情緒檢測(cè)和PII檢測(cè)。通過(guò)這些技能,非結(jié)構(gòu)化文本在索引中映射為可搜索和可篩選的字段。

“圖像處理”技能包括光學(xué)字符識(shí)別(OCR)和視覺(jué)特征標(biāo)識(shí),例如面部檢測(cè)、圖像解釋、圖像識(shí)別(名人和地標(biāo))或?qū)傩裕ɡ鐖D像方向)。這些技能創(chuàng)建圖像內(nèi)容的文本表示形式,這樣就可以使用Azure認(rèn)知搜索的查詢(xún)功能來(lái)搜索這些內(nèi)容了。

cogsearch-architecture.png

擴(kuò)充管道關(guān)系圖

Azure認(rèn)知搜索中的內(nèi)置技能基于認(rèn)知服務(wù)API中預(yù)先訓(xùn)練的機(jī)器學(xué)習(xí)模型:計(jì)算機(jī)視覺(jué)和文本分析。若要在內(nèi)容處理期間利用這些資源,可以附加認(rèn)知服務(wù)資源。

數(shù)據(jù)引入階段應(yīng)用了自然語(yǔ)言和圖形處理,其結(jié)果會(huì)成為Azure認(rèn)知搜索的可搜索索引中文檔撰寫(xiě)內(nèi)容的一部分。數(shù)據(jù)作為Azure數(shù)據(jù)集的來(lái)源,然后使用任意所需的內(nèi)置技能通過(guò)索引管道進(jìn)行推送。

何時(shí)使用AI擴(kuò)充

如果原始內(nèi)容為非結(jié)構(gòu)化文本、圖像內(nèi)容或需要語(yǔ)言檢測(cè)和翻譯的內(nèi)容,則應(yīng)考慮使用內(nèi)置認(rèn)知技能。通過(guò)內(nèi)置認(rèn)知技能應(yīng)用AI,可以對(duì)此內(nèi)容進(jìn)行解鎖,在搜索和數(shù)據(jù)科學(xué)應(yīng)用中提高其價(jià)值和實(shí)用性。

此外,如果你有要集成到管道中的開(kāi)源、第三方或第一方代碼,則可以考慮添加自定義技能。標(biāo)識(shí)各種文檔類(lèi)型的突出特征的分類(lèi)模型屬于此類(lèi)別,但可以使用將值添加到內(nèi)容的任何包。

有關(guān)內(nèi)置技能的詳細(xì)信息

使用內(nèi)置技能組合起來(lái)的技能組非常適合以下應(yīng)用方案:

需要對(duì)其啟用全文搜索的已掃描文檔(JPEG)??梢愿郊庸鈱W(xué)字符識(shí)別(OCR)技能,以便標(biāo)識(shí)、提取和引入JPEG文件中的文本。

組合使用圖像和文本的PDF。PDF中的文本可以在索引期間提取,不需使用擴(kuò)充步驟,但在添加圖像并進(jìn)行自然語(yǔ)言處理的情況下,所產(chǎn)生的結(jié)果通常比標(biāo)準(zhǔn)索引提供的結(jié)果要好。

需對(duì)其應(yīng)用語(yǔ)言檢測(cè)并可能對(duì)其應(yīng)用文本翻譯的多語(yǔ)言?xún)?nèi)容。

非結(jié)構(gòu)化或半結(jié)構(gòu)化的文檔,其中包含的內(nèi)容有固有的含義,或者其上下文隱藏在更大的文檔中。

Blob特別包含打包到單個(gè)"字段"中的大內(nèi)容正文。將圖像和自然語(yǔ)言處理技能附加到索引器以后,即可創(chuàng)建新信息,該信息存在于原始內(nèi)容中,但在其他情況下并不顯示為非重復(fù)字段。某些對(duì)你有幫助的可用內(nèi)置認(rèn)知技能:關(guān)鍵短語(yǔ)提取、情緒分析、實(shí)體識(shí)別(人、組織和位置)。

另外,內(nèi)置技能還可以用來(lái)通過(guò)文本拆分、合并和形狀操作來(lái)重新構(gòu)造內(nèi)容。

有關(guān)自定義技能的詳細(xì)信息

自定義技能可以支持更復(fù)雜的方案,例如識(shí)別表單,或者使用你提供的模型進(jìn)行自定義實(shí)體檢測(cè),以及在自定義技能Web界面中進(jìn)行包裝。自定義技能的一些示例:表單識(shí)別器、集成必應(yīng)實(shí)體搜索API、自定義實(shí)體識(shí)別。

擴(kuò)充管道中的步驟

擴(kuò)充管道基于索引器。索引器根據(jù)索引與數(shù)據(jù)源之間的字段到字段映射填充索引,以進(jìn)行文檔破解。技能(現(xiàn)已附加到索引器)根據(jù)你定義的技能組截獲并擴(kuò)充文檔。編制索引后,可以使用所有受Azure認(rèn)知搜索支持的查詢(xún)類(lèi)型通過(guò)搜索請(qǐng)求來(lái)訪問(wèn)內(nèi)容。本部分引導(dǎo)索引器的新手完成這些步驟。

步驟1:連接和文檔破解階段

在管道的開(kāi)頭部分包含非結(jié)構(gòu)化文本或非文本內(nèi)容(例如圖像、掃描的文檔或JPEG文件)。數(shù)據(jù)必須存在于可由索引器訪問(wèn)的Azure數(shù)據(jù)存儲(chǔ)服務(wù)中。索引器可以“破解”源文檔,以從源數(shù)據(jù)提取文本。文檔破解是在編制索引期間從非文本源提取或創(chuàng)建文本內(nèi)容的過(guò)程。

document-cracking-phase-blowup.png

文檔破解階段

支持的源包括Azure Blob存儲(chǔ)、Azure表存儲(chǔ)、Azure SQL數(shù)據(jù)庫(kù)和Azure Cosmos DB??蓮囊韵骂?lèi)型的文件提取基于文本的內(nèi)容:PDF、Word、PowerPoint、CSV文件。有關(guān)完整列表,請(qǐng)參閱支持的格式。編制索引需要花費(fèi)一定的時(shí)間,因此請(qǐng)從較少的有代表性數(shù)據(jù)集著手,然后隨著解決方案的不斷成熟,逐漸增加數(shù)據(jù)集的大小。

步驟2:認(rèn)知技能和擴(kuò)充階段

擴(kuò)充通過(guò)認(rèn)知技能執(zhí)行,這些技能執(zhí)行原子操作。例如,在破解PDF后,可以應(yīng)用實(shí)體識(shí)別、語(yǔ)言檢測(cè)或關(guān)鍵短語(yǔ)提取,以便在索引中生成本來(lái)未在源代碼中提供的新字段。管道中使用的技能的集合統(tǒng)稱(chēng)為技能集。

enrichment-phase-blowup.png

擴(kuò)充階段

技能集基于你提供的、與該技能集連接的內(nèi)置認(rèn)知技能或自定義技能。技能集既可以很精簡(jiǎn),也可以很復(fù)雜,它不僅確定處理的類(lèi)型,而且還確定運(yùn)算的順序。技能集以及定義為索引器一部分的字段映射全面指定擴(kuò)充管道。有關(guān)將所有組成部分一起提取的詳細(xì)信息,請(qǐng)參閱定義技能集。

在內(nèi)部,管道生成擴(kuò)充文檔的集合??梢源_定要將擴(kuò)充文檔的哪些部分映射到搜索索引中可編制索引的字段。例如,如果應(yīng)用了關(guān)鍵短語(yǔ)提取和實(shí)體識(shí)別技能,則這些新字段將成為擴(kuò)充文檔的一部分,并可以映射到索引中的字段。請(qǐng)參閱注釋詳細(xì)了解輸入/輸出的形成。

添加用于保存擴(kuò)充的knowledgeStore元素

搜索REST api-version=2020-06-30使用knowledgeStore定義來(lái)擴(kuò)展技能組。該定義提供Azure存儲(chǔ)連接以及描述如何存儲(chǔ)擴(kuò)充的投影。這是對(duì)索引的補(bǔ)充。在標(biāo)準(zhǔn)的AI管道中,擴(kuò)充文檔是臨時(shí)的,僅在編制索引期間使用,然后被丟棄。擴(kuò)充文檔將通過(guò)知識(shí)存儲(chǔ)保存起來(lái)。有關(guān)詳細(xì)信息,請(qǐng)參閱知識(shí)存儲(chǔ)。

步驟3:搜索索引和基于查詢(xún)的訪問(wèn)

完成處理后,便會(huì)獲得由擴(kuò)充的文檔組成的搜索索引,這些文檔在Azure認(rèn)知搜索中可全文搜索。開(kāi)發(fā)者和用戶(hù)可以通過(guò)查詢(xún)索引來(lái)訪問(wèn)管道生成的擴(kuò)充內(nèi)容。

search-phase-blowup.png

帶搜索圖標(biāo)的索引

索引類(lèi)似于可為Azure認(rèn)知搜索創(chuàng)建的其他任何對(duì)象:可以使用自定義分析器進(jìn)行補(bǔ)充、調(diào)用模糊搜索查詢(xún)、添加篩選的搜索結(jié)果,或試著使用評(píng)分配置文件為搜索結(jié)果重新整型。

索引從某個(gè)索引架構(gòu)生成。該架構(gòu)定義字段、屬性,以及附加到特定索引的其他構(gòu)造,例如評(píng)分配置文件和同義詞映射。定義并填充索引后,可以增量方式編制索引,以拾取新的和更新的源文檔。某些修改需要完全重新生成。在架構(gòu)設(shè)計(jì)穩(wěn)定之前,應(yīng)使用小型數(shù)據(jù)集。有關(guān)詳細(xì)信息,請(qǐng)參閱如何重新生成索引。

清單:典型工作流

1.將Azure源數(shù)據(jù)分解為代表性樣本。編制索引需要花費(fèi)一定的時(shí)間,因此請(qǐng)從較少的有代表性數(shù)據(jù)集著手,然后隨著解決方案的不斷成熟,逐漸增加數(shù)據(jù)集的大小。

2.在Azure認(rèn)知搜索中創(chuàng)建數(shù)據(jù)源對(duì)象,以便提供用于數(shù)據(jù)檢索的連接字符串。

3.使用擴(kuò)充步驟創(chuàng)建技能集。

4.定義索引架構(gòu)。字段集合包含源數(shù)據(jù)中的字段。還應(yīng)該抽出其他字段,以保存擴(kuò)充期間創(chuàng)建的內(nèi)容的生成值。

5.定義引用數(shù)據(jù)源、技能集和索引的索引器。

6.在索引器中,添加outputFieldMappings。此節(jié)將技能集的輸出(步驟3)映射到索引架構(gòu)中的輸入字段(步驟4)。

7.發(fā)送剛剛創(chuàng)建的“創(chuàng)建索引器”請(qǐng)求(一個(gè)POST請(qǐng)求,其請(qǐng)求正文包含索引器定義),用于表示Azure認(rèn)知搜索中的索引器。通過(guò)此步驟運(yùn)行索引器,并調(diào)用管道。

8.運(yùn)行查詢(xún)以評(píng)估結(jié)果,并修改代碼以更新技能集、架構(gòu)或索引器配置。

9.重新生成管道之前重置索引器。

立即登錄,閱讀全文
版權(quán)說(shuō)明:
本文內(nèi)容來(lái)自于Microsoft Azure,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
Azure Arc為企業(yè)構(gòu)建安全的云基礎(chǔ)
Azure Arc為企業(yè)構(gòu)建安全的云基礎(chǔ)
隨著人工智能技術(shù)持續(xù)重塑企業(yè)運(yùn)營(yíng)方式,企業(yè)需要能夠處理海量數(shù)據(jù)的系統(tǒng),以支持實(shí)時(shí)洞察,同時(shí)幫助他們應(yīng)對(duì)跨IT和OT環(huán)境(包括云端、邊緣和本地)中運(yùn)營(yíng)、應(yīng)用、數(shù)據(jù)和基礎(chǔ)設(shè)施的協(xié)作難題。
Azure
微軟云
云服務(wù)
2024-12-172024-12-17
釋放.NET 9和Azure的AI技術(shù)與云計(jì)算潛力:更快、更智能、面向未來(lái)
釋放.NET 9和Azure的AI技術(shù)與云計(jì)算潛力:更快、更智能、面向未來(lái)
.NET 9現(xiàn)已正式發(fā)布,它為.NET平臺(tái)的發(fā)展掀開(kāi)了嶄新的一頁(yè),突破了性能、云原生開(kāi)發(fā)和AI技術(shù)集成的邊界。
Azure
微軟云
云服務(wù)
2024-12-162024-12-16
Azure網(wǎng)絡(luò)管理現(xiàn)已具備智能Microsoft Copilot副駕駛能力
Azure網(wǎng)絡(luò)管理現(xiàn)已具備智能Microsoft Copilot副駕駛能力
智能Microsoft Copilot副駕駛for Azure網(wǎng)絡(luò)服務(wù)現(xiàn)已推出公共預(yù)覽版。
Azure
微軟云
云服務(wù)
2024-12-102024-12-10
Microsoft Fabric功能更新,借助AI驅(qū)動(dòng)的數(shù)據(jù)平臺(tái)加速應(yīng)用創(chuàng)新
Microsoft Fabric功能更新,借助AI驅(qū)動(dòng)的數(shù)據(jù)平臺(tái)加速應(yīng)用創(chuàng)新
一年前,我們正式推出了一款端到端數(shù)據(jù)平臺(tái),旨在幫助組織推動(dòng)人工智能轉(zhuǎn)型,并重新定義數(shù)據(jù)的連接、管理和分析方式。
Azure
微軟云
云服務(wù)
2024-12-092024-12-09
掃碼登錄
打開(kāi)掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
個(gè)人VIP
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家