Yandex開(kāi)源具備1,000億個(gè)參數(shù)的YaLM 100B語(yǔ)言模型

來(lái)源：十輪網(wǎng)

作者：十輪網(wǎng)

時(shí)間：2022-06-27

俄羅斯最大網(wǎng)絡(luò)公司Yandex周四（6.23）開(kāi)源了具備1,000億個(gè)參數(shù)的YaLM 100B語(yǔ)言模型，宣稱這是全球最大的類生成型已訓(xùn)練變換模型（Generative Pre-trained Transformer，GPT）的神經(jīng)網(wǎng)絡(luò)。

俄羅斯最大網(wǎng)絡(luò)公司Yandex周四（6/23）開(kāi)源了具備1,000億個(gè)參數(shù)的YaLM 100B語(yǔ)言模型，宣稱這是全球最大的類生成型已訓(xùn)練變換模型（Generative Pre-trained Transformer，GPT）的神經(jīng)網(wǎng)絡(luò)。

嚴(yán)格說(shuō)來(lái)YaLM 100B并不是最大的開(kāi)源語(yǔ)言模型，因?yàn)镸eta的AI實(shí)驗(yàn)室在今年5月所發(fā)布的OPT-175B擁有1,750億個(gè)參數(shù)，與號(hào)稱全球最強(qiáng)大語(yǔ)言模型的OpenAI GPT-3相當(dāng)，不過(guò)，OpenAI GPT-3并未開(kāi)源，而OPT-175B則支持非商業(yè)性授權(quán)，僅供研究人員、政府與產(chǎn)業(yè)研究實(shí)驗(yàn)室免費(fèi)使用，但YaLM 100B采用Apache 2.0授權(quán)，同時(shí)允許研究及商業(yè)免費(fèi)使用。

Yandex是在一個(gè)聚集800個(gè)A100繪圖卡的集群上，利用來(lái)自網(wǎng)絡(luò)、書(shū)籍與眾多來(lái)源的英文及俄文等17TB的資料，花了65天的時(shí)間來(lái)訓(xùn)練YaLM 100B，而且將它應(yīng)用在Alice數(shù)字語(yǔ)音助理及搜索引擎上的時(shí)間已經(jīng)超過(guò)1年。

Yandex表示，大型語(yǔ)言模型近年來(lái)已成為自然語(yǔ)言處理的關(guān)鍵，這些模型越來(lái)越大也日益復(fù)雜，但訓(xùn)練它們必需要耗費(fèi)數(shù)年的時(shí)間并斥資數(shù)百萬(wàn)美元，導(dǎo)致只有大型的科技企業(yè)才能訪問(wèn)該最先進(jìn)的技術(shù)，但必須允許全球的研究人員與開(kāi)發(fā)者訪問(wèn)這些解決方案，否則便會(huì)拖慢該領(lǐng)域的增長(zhǎng)，因而決定與全球的開(kāi)發(fā)社群分享。

Yandex已通過(guò)GitHub發(fā)布YaLM 100B，并于官網(wǎng)上公布訓(xùn)練YaLM 100B的經(jīng)驗(yàn)，該公司表示，人們或許會(huì)以為借由超級(jí)計(jì)算機(jī)來(lái)訓(xùn)練大型模型只是小菜一碟，但實(shí)際上并非如此，他們?nèi)匀槐仨毾朕k法加快訓(xùn)練時(shí)間、檢查瓶頸、使用快速資料類型，以及完全發(fā)揮GPU的潛力等，期待經(jīng)驗(yàn)的分享可用來(lái)協(xié)助開(kāi)發(fā)者訓(xùn)練其它模型。

Yandex

上一篇：Instagram將以人臉來(lái)確認(rèn)用戶年齡

原文鏈接：點(diǎn)擊前往 >

版權(quán)說(shuō)明：本文內(nèi)容來(lái)自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章