facebook開發(fā)新模型TaBERT可理解自然語言并從表格查資料

來源:十輪網(wǎng)
作者:十輪網(wǎng)編輯
時間:2020-07-13
3216
臉書開發(fā)了一個經(jīng)預訓練的模型TaBERT,可以理解自然語言的句子,并且從表格查詢結果,以回答自然語言句子的提問。

臉書開發(fā)了一個經(jīng)預訓練的模型TaBERT,可以理解自然語言的句子,并且從表格查詢結果,以回答自然語言句子的提問,TaBERT能夠回答像是“哪個國家的GDP最高?”這類的問題。研究人員提到,TaBERT是第一個跨結構化與非結構化資料的預訓練方法,克服了查詢對應到數(shù)據(jù)庫表格結構的挑戰(zhàn)。

fireshot_capture_748_-_tabert_pretraining_for_joint_understanding_of_textual_and_tabular_da_-_ai.facebook.com_.jpg

自然語言處理的改進,無論是網(wǎng)絡搜索還是人工智能助理的查詢,都能擁有更好的人機交互體驗,而大規(guī)模預訓練語言模型,在近期機器理解自然語言文本,扮演了重要的角色。TaBERT則是運用了預訓練技術,連接自然語言理解和結構化資料查詢,研究人員提到,TaBERT可以讓數(shù)字助理更精確地回應“下午的氣溫幾度?”和“太平洋西北地區(qū)有多少人口?”等問題,因為TaBERT可從各種數(shù)據(jù)庫或是表格中找到答案。

臉書使用了2,600萬張表格和關聯(lián)的英文句子來訓練TaBERT,研究人員表示,先前的預訓練語言模型,都僅使用自由格式的自然語言文本訓練模型,而這讓模型僅能夠處理自然語言格式的任務,但并無法處理同時需要對自然語言和數(shù)據(jù)庫進行推理的問題。

臉書以兩個常用的基準資料集進行實驗,分別是用于監(jiān)督式文本轉SQL任務的Spider資料集,以及弱監(jiān)督式解析任務的WikiTableQuestions資料集,臉書提到,弱監(jiān)督式學習會比監(jiān)督式學習更具挑戰(zhàn)性,因為解析器無法取得標簽查詢,而且必需要探索非常大的查詢搜索空間。實驗結果顯示,無論是弱監(jiān)督式或是監(jiān)督式任務,TaBERT的結果都更好,而且也證明使用表格和語言資料進行預訓練,是可行且有效的方法。

TaBERT是以語言處理模型BERT作為基礎,研究人員把自然語言查詢以及表格作為輸入,讓TaBERT學習句子以及數(shù)據(jù)庫的上下文表示,而該表示也可以用在其他神經(jīng)網(wǎng)絡下游,以產(chǎn)生數(shù)據(jù)庫命令,并且能以任務相關的訓練資料,來微調TaBERT表示。

研究人員提到,TaBERT可以被應用在事實核實和驗證應用程序中,因為第三方事實核實單位,通常也是依賴已經(jīng)存在的靜態(tài)知識庫資料,而TaBERT可以將查詢對應到相關數(shù)據(jù)庫中,因此不僅能夠驗證事實,也能參照相關數(shù)據(jù)庫給出解釋。

原文鏈接:點擊前往 >
版權說明:本文內容來自于十輪網(wǎng),本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家