Google發(fā)布地理多樣性圖片說明資料集

來源：十輪網(wǎng)

作者：十輪網(wǎng)

時間：2022-10-18

Google發(fā)布圖片說明評估資料集Crossmodal-3600，該資料集可作為語言圖像說明的基準(zhǔn)，使研究人員可以更可靠地研究該領(lǐng)域。

google_ai_blog_crossmodal-3600_multilingual_reference_captions_fo.jpg

Google發(fā)布圖片說明評估資料集Crossmodal-3600，該資料集可作為語言圖像說明的基準(zhǔn)，使研究人員可以更可靠地研究該領(lǐng)域。Crossmodal-3600以36種語言，對世界各地不同的3,600張照片，加上261,375個人工生成的參考說明，研究人員提到，Crossmodal-3600的圖片說明品質(zhì)很好，而且在不同語言中維持風(fēng)格一致。

替圖像自動產(chǎn)生說明是近年新興的機器學(xué)習(xí)領(lǐng)域，針對給定的圖像自動生成自然語言文本，這項工作有助改善視障用戶的可訪問性，Google提到，目前用于圖像字幕的資料集主要以英文為主，只有少數(shù)資料集涵蓋有限數(shù)量的語言，而且這些資料集無法表現(xiàn)全球文化的豐富性和多樣性，也就阻礙了各種語言對圖片說明的研究。

Crossmodal-3600包含36種語言，由人工手動對Open Images資料集中3,600張具地理多樣性的圖片，添加261,375個人工生成的參考說明。研究人員選擇英語之外的30種語言，大致根據(jù)網(wǎng)絡(luò)內(nèi)容所占的百分比，另外，他們還另外選擇了5種資源較少的語言，將英文當(dāng)作基準(zhǔn)，最終產(chǎn)生36種語言的圖片說明。

Crossmodal-3600中的圖像使用具有元數(shù)據(jù)的Open Images資料集，但因為有許多區(qū)域使用一種以上的語言，而且這些圖像并沒有良好地覆蓋部分區(qū)域，因此研究人員設(shè)計了算法，來最大化所選圖像和目標(biāo)語言區(qū)域之間的對應(yīng)關(guān)系。

Google在各語言區(qū)域都對應(yīng)了100幅圖像，總共3,600張圖片用36種語言進行注解，每種語言平均有兩種注解，總共產(chǎn)生261,375個圖說。經(jīng)過訓(xùn)練的模型會先對圖片產(chǎn)生初始的圖說，Google再請注解者評估模型產(chǎn)生的說明，并且隨后要求注解者單獨對每張圖像，添加目標(biāo)語言的描述性說明，Crossmodal-3600資料集便是由這些注解者編寫的說明組成。

研究人員通過訓(xùn)練4種圖片說明生成模型變體，并使用Crossmodal-3600資料集，比較CIDEr指標(biāo)和人工評估的輸出，研究人員提到，CIDEr分?jǐn)?shù)差異與人工評估有很強的關(guān)聯(lián)性，也就是說Crossmodal-3600可針對英語之外的語言，實現(xiàn)自動比較圖片說明品質(zhì)。

Google 谷歌

上一篇：內(nèi)容加載快又流暢為亮點，F(xiàn)acebook App明年停止支持即時文章模式

原文鏈接：點擊前往 >

版權(quán)說明：本文內(nèi)容來自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點，不代表快出海對觀點贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章