Amazon本周發(fā)布名為MASSIVE的資料集,供開(kāi)發(fā)商訓(xùn)練能理解多種語(yǔ)言的數(shù)字助理使用的AI模型。
到2023年全球?qū)⒁蛑悄苁謾C(jī)的普及而有80多億個(gè)AI虛擬助理,還有超過(guò)1億臺(tái)智能音箱。然而大部分虛擬助理都僅能使用1種或僅數(shù)種主流語(yǔ)言。此外這些數(shù)字助理的訓(xùn)練還面臨標(biāo)注資料不足、去除資料訛誤、維護(hù)和更新模型的成本等問(wèn)題,進(jìn)一步限制了數(shù)字助理的口語(yǔ)翻譯的能力。
大量多語(yǔ)自然語(yǔ)言理解(massively multilingual natural-language understanding,MMNLU)模型即希望解決這個(gè)問(wèn)題。Amazon Alexa AI自然語(yǔ)言理解部門科學(xué)家Jack FitzGerald指出,這愿景下,單一機(jī)器學(xué)習(xí)模型能分析和理解多種語(yǔ)言。通過(guò)學(xué)習(xí)跨語(yǔ)言的共享資料展現(xiàn)(data representation),這個(gè)模型可以從有很豐富訓(xùn)練資料的主流語(yǔ)言學(xué)習(xí)到的知識(shí),轉(zhuǎn)移到資料很稀少的語(yǔ)言上。
為推動(dòng)MMNLU模型創(chuàng)建,Amazon宣布發(fā)布MASSIVE資料集。MASSIVE資料集包含跨51種語(yǔ)言加注過(guò)的100萬(wàn)項(xiàng)話語(yǔ)或單詞(utterance)及開(kāi)源程序代碼。資料集包括訓(xùn)練、驗(yàn)證和測(cè)試資料,后者則提供MMNLU模型的執(zhí)行范例,協(xié)助AI項(xiàng)目人員創(chuàng)建意圖分類(intent classification)或詞槽填充(Slot Filling)的結(jié)果基準(zhǔn)線(baseline)。
MASSIVE為平行資料集,意味每個(gè)單詞都有51種語(yǔ)言版本,這可讓模型學(xué)習(xí)到同一意圖的共享表達(dá)方式,可加速自然語(yǔ)言理解(NLP)任務(wù)的跨語(yǔ)言訓(xùn)練,也能用于其他NLP任務(wù),如機(jī)器翻譯、多語(yǔ)復(fù)述(multilingual paraphrasing)等等。MASSIVE通過(guò)CC BY 4.0授權(quán)開(kāi)源,以鼓勵(lì)學(xué)界及業(yè)界使用。
Amazon同時(shí)還宣布MMNLU-22競(jìng)賽(Massively Multilingual NLU 2022),鼓勵(lì)開(kāi)發(fā)人員利用MASSIVE資料集創(chuàng)建模型。