臉書開發(fā)了一個經(jīng)預訓練的模型TaBERT,可以理解自然語言的句子,并且從表格查詢結果,以回答自然語言句子的提問,TaBERT能夠回答像是“哪個國家的GDP最高?”這類的問題。研究人員提到,TaBERT是第一個跨結構化與非結構化資料的預訓練方法,克服了查詢對應到數(shù)據(jù)庫表格結構的挑戰(zhàn)。
自然語言處理的改進,無論是網(wǎng)絡搜索還是人工智能助理的查詢,都能擁有更好的人機交互體驗,而大規(guī)模預訓練語言模型,在近期機器理解自然語言文本,扮演了重要的角色。TaBERT則是運用了預訓練技術,連接自然語言理解和結構化資料查詢,研究人員提到,TaBERT可以讓數(shù)字助理更精確地回應“下午的氣溫幾度?”和“太平洋西北地區(qū)有多少人口?”等問題,因為TaBERT可從各種數(shù)據(jù)庫或是表格中找到答案。
臉書使用了2,600萬張表格和關聯(lián)的英文句子來訓練TaBERT,研究人員表示,先前的預訓練語言模型,都僅使用自由格式的自然語言文本訓練模型,而這讓模型僅能夠處理自然語言格式的任務,但并無法處理同時需要對自然語言和數(shù)據(jù)庫進行推理的問題。
臉書以兩個常用的基準資料集進行實驗,分別是用于監(jiān)督式文本轉SQL任務的Spider資料集,以及弱監(jiān)督式解析任務的WikiTableQuestions資料集,臉書提到,弱監(jiān)督式學習會比監(jiān)督式學習更具挑戰(zhàn)性,因為解析器無法取得標簽查詢,而且必需要探索非常大的查詢搜索空間。實驗結果顯示,無論是弱監(jiān)督式或是監(jiān)督式任務,TaBERT的結果都更好,而且也證明使用表格和語言資料進行預訓練,是可行且有效的方法。
TaBERT是以語言處理模型BERT作為基礎,研究人員把自然語言查詢以及表格作為輸入,讓TaBERT學習句子以及數(shù)據(jù)庫的上下文表示,而該表示也可以用在其他神經(jīng)網(wǎng)絡下游,以產(chǎn)生數(shù)據(jù)庫命令,并且能以任務相關的訓練資料,來微調TaBERT表示。
研究人員提到,TaBERT可以被應用在事實核實和驗證應用程序中,因為第三方事實核實單位,通常也是依賴已經(jīng)存在的靜態(tài)知識庫資料,而TaBERT可以將查詢對應到相關數(shù)據(jù)庫中,因此不僅能夠驗證事實,也能參照相關數(shù)據(jù)庫給出解釋。