Yandex開源具備1,000億個參數(shù)的YaLM 100B語言模型

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時間:2022-06-27
2764
俄羅斯最大網(wǎng)絡(luò)公司Yandex周四(6.23)開源了具備1,000億個參數(shù)的YaLM 100B語言模型,宣稱這是全球最大的類生成型已訓(xùn)練變換模型(Generative Pre-trained Transformer,GPT)的神經(jīng)網(wǎng)絡(luò)。

0624-yandex-yalm_100b-yu_yan_mo_xing_-960.jpg

俄羅斯最大網(wǎng)絡(luò)公司Yandex周四(6/23)開源了具備1,000億個參數(shù)的YaLM 100B語言模型,宣稱這是全球最大的類生成型已訓(xùn)練變換模型(Generative Pre-trained Transformer,GPT)的神經(jīng)網(wǎng)絡(luò)。

嚴格說來YaLM 100B并不是最大的開源語言模型,因為Meta的AI實驗室在今年5月所發(fā)布的OPT-175B擁有1,750億個參數(shù),與號稱全球最強大語言模型的OpenAI GPT-3相當,不過,OpenAI GPT-3并未開源,而OPT-175B則支持非商業(yè)性授權(quán),僅供研究人員、政府與產(chǎn)業(yè)研究實驗室免費使用,但YaLM 100B采用Apache 2.0授權(quán),同時允許研究及商業(yè)免費使用。

Yandex是在一個聚集800個A100繪圖卡的集群上,利用來自網(wǎng)絡(luò)、書籍與眾多來源的英文及俄文等17TB的資料,花了65天的時間來訓(xùn)練YaLM 100B,而且將它應(yīng)用在Alice數(shù)字語音助理及搜索引擎上的時間已經(jīng)超過1年。

Yandex表示,大型語言模型近年來已成為自然語言處理的關(guān)鍵,這些模型越來越大也日益復(fù)雜,但訓(xùn)練它們必需要耗費數(shù)年的時間并斥資數(shù)百萬美元,導(dǎo)致只有大型的科技企業(yè)才能訪問該最先進的技術(shù),但必須允許全球的研究人員與開發(fā)者訪問這些解決方案,否則便會拖慢該領(lǐng)域的增長,因而決定與全球的開發(fā)社群分享。

Yandex已通過GitHub發(fā)布YaLM 100B,并于官網(wǎng)上公布訓(xùn)練YaLM 100B的經(jīng)驗,該公司表示,人們或許會以為借由超級計算機來訓(xùn)練大型模型只是小菜一碟,但實際上并非如此,他們?nèi)匀槐仨毾朕k法加快訓(xùn)練時間、檢查瓶頸、使用快速資料類型,以及完全發(fā)揮GPU的潛力等,期待經(jīng)驗的分享可用來協(xié)助開發(fā)者訓(xùn)練其它模型。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:十輪網(wǎng)
版權(quán)說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔相關(guān)法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質(zhì)服務(wù)商推薦
更多