facebook開發(fā)新模型TaBERT可理解自然語言并從表格查資料

來源：十輪網(wǎng)

作者：十輪網(wǎng)編輯

時間：2020-07-13

臉書開發(fā)了一個經(jīng)預訓練的模型TaBERT，可以理解自然語言的句子，并且從表格查詢結果，以回答自然語言句子的提問。

臉書開發(fā)了一個經(jīng)預訓練的模型TaBERT，可以理解自然語言的句子，并且從表格查詢結果，以回答自然語言句子的提問，TaBERT能夠回答像是“哪個國家的GDP最高？”這類的問題。研究人員提到，TaBERT是第一個跨結構化與非結構化資料的預訓練方法，克服了查詢對應到數(shù)據(jù)庫表格結構的挑戰(zhàn)。

fireshot_capture_748_-_tabert_pretraining_for_joint_understanding_of_textual_and_tabular_da_-_ai.facebook.com_.jpg

自然語言處理的改進，無論是網(wǎng)絡搜索還是人工智能助理的查詢，都能擁有更好的人機交互體驗，而大規(guī)模預訓練語言模型，在近期機器理解自然語言文本，扮演了重要的角色。TaBERT則是運用了預訓練技術，連接自然語言理解和結構化資料查詢，研究人員提到，TaBERT可以讓數(shù)字助理更精確地回應“下午的氣溫幾度？”和“太平洋西北地區(qū)有多少人口？”等問題，因為TaBERT可從各種數(shù)據(jù)庫或是表格中找到答案。

臉書使用了2,600萬張表格和關聯(lián)的英文句子來訓練TaBERT，研究人員表示，先前的預訓練語言模型，都僅使用自由格式的自然語言文本訓練模型，而這讓模型僅能夠處理自然語言格式的任務，但并無法處理同時需要對自然語言和數(shù)據(jù)庫進行推理的問題。

臉書以兩個常用的基準資料集進行實驗，分別是用于監(jiān)督式文本轉SQL任務的Spider資料集，以及弱監(jiān)督式解析任務的WikiTableQuestions資料集，臉書提到，弱監(jiān)督式學習會比監(jiān)督式學習更具挑戰(zhàn)性，因為解析器無法取得標簽查詢，而且必需要探索非常大的查詢搜索空間。實驗結果顯示，無論是弱監(jiān)督式或是監(jiān)督式任務，TaBERT的結果都更好，而且也證明使用表格和語言資料進行預訓練，是可行且有效的方法。

TaBERT是以語言處理模型BERT作為基礎，研究人員把自然語言查詢以及表格作為輸入，讓TaBERT學習句子以及數(shù)據(jù)庫的上下文表示，而該表示也可以用在其他神經(jīng)網(wǎng)絡下游，以產(chǎn)生數(shù)據(jù)庫命令，并且能以任務相關的訓練資料，來微調TaBERT表示。

研究人員提到，TaBERT可以被應用在事實核實和驗證應用程序中，因為第三方事實核實單位，通常也是依賴已經(jīng)存在的靜態(tài)知識庫資料，而TaBERT可以將查詢對應到相關數(shù)據(jù)庫中，因此不僅能夠驗證事實，也能參照相關數(shù)據(jù)庫給出解釋。

Facebook

上一篇：YouTube終于讓創(chuàng)作者知道他們在該平臺上是如何賺錢的

原文鏈接：點擊前往 >

版權說明：本文內容來自于十輪網(wǎng)，本站不擁有所有權，不承擔相關法律責任。文章內容系作者個人觀點，不代表快出海對觀點贊同或支持。如有侵權，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關文章