自然語言處理服務Amazon Comprehend現(xiàn)支持Word和PDF文件格式

來源：十輪網(wǎng)

作者：十輪網(wǎng)

時間：2021-09-18

AWS更新自然語言處理服務Amazon Comprehend，開始支持Word和PDF文件，讓用戶可以從這些類型的文件截取資料。

AWS更新自然語言處理服務Amazon Comprehend，開始支持Word和PDF文件，讓用戶可以從這些類型的文件截取資料。Amazon Comprehend能夠分析不同語言的文本，并且識別這些文本的內(nèi)容，諸如人名、地點、品牌和產(chǎn)品等，同時還能理解文本中的關鍵句子和情緒，或?qū)Υ罅课募膬?nèi)容，依照主題加以分類。

無論是開設銀行賬戶、申請保險或是房屋借款等程序，皆大量使用紙質(zhì)文件，而這些文件動輒超過百頁，對于企業(yè)來說，手動處理這些文件是一件繁瑣的工作，不只需要人工，而且速度緩慢容易出錯，而借由使用Amazon Comprehend，可以大幅加速文件的創(chuàng)建和管理，并且降低出錯幾率。

Amazon Comprehend新的解決方案，可處理PDF、Word和原始文本等文件格式，或是筆記和列表等布局，并進行內(nèi)容截取和分析，AWS提到，這次推出的解決方案，結(jié)合自然語言處理和光學字符識別技術(shù)，能夠減少企業(yè)文件的預處理和后處理工作量，用戶不再需要將文件轉(zhuǎn)換成原始文本，就能夠使用自定義命名實體識別（NER）功能。

過去Amazon Comprehend只能處理純文本文件，這需要用戶先將文件整理成機器可讀的文本，但用戶現(xiàn)在能夠利用Amazon Comprehend以相同的API，直接從PDF和Word中的文本或是列表等不同文件布局，截取特定詞語。

新的Amazon Comprehend自定義實體識別模型，綜合分析結(jié)構(gòu)上下文和自然語言上下文，從文件中的任何位置，截取自定義詞語實體。AWS提到，用戶對于每一種實體類型，只要提供250個文件和100個注解，即可訓練模型并且開始使用該功能，而為了要掃描PDF并截取空間位置，Amazon Comprehend會調(diào)用Amazon Textract服務，來執(zhí)行必要的處理。

這項新功能有助于企業(yè)處理保險、抵押、金融等業(yè)務中的文件處理工作流程，通常這些文件布局復雜，用戶也不需要頁面上的每一個人信息料點，因此截取特定信息存在困難，而Amazon Comprehend這項新功能，可以使用機器學習，使用單個模型和API調(diào)用，快速截取自定義的詞語，像是處理汽車或健康保險文件中的索賠金額，甚至是在抵押貸款中，截取申請人姓名、共同簽署人或是其他財務文件信息等。

立即登錄，閱讀全文

AWS

上一篇：亞馬遜云科技發(fā)起“汽車行業(yè)創(chuàng)新加速計劃”，助力中國汽車行業(yè)轉(zhuǎn)型創(chuàng)新

版權(quán)說明：

本文內(nèi)容來自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔相關法律責任。文章內(nèi)容系作者個人觀點，不代表快出海對觀點贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關文章