IBM聯(lián)合PyTorch大幅改進(jìn)在云計(jì)算訓(xùn)練大型AI模型的效率

來源：十輪網(wǎng)

作者：十輪網(wǎng)

時(shí)間：2022-11-22

IBM研究院與PyTorch合作，發(fā)展一個(gè)稱作rate_limiter的控件，能夠通過配置訓(xùn)練時(shí)的內(nèi)存，使得具有數(shù)十億參數(shù)的模型，也能夠在標(biāo)準(zhǔn)云計(jì)算網(wǎng)絡(luò)基礎(chǔ)設(shè)施，像是以太網(wǎng)絡(luò)上運(yùn)行。

當(dāng)前的人工智能模型，只要使用簡單的文本題事，就能創(chuàng)造出圖像、歌曲甚至是網(wǎng)站，而這種具有數(shù)十億參數(shù)的模型，被稱為基礎(chǔ)模型，不需要大量時(shí)長的訓(xùn)練與標(biāo)記，基礎(chǔ)模型就可以被簡單地重新用于另一項(xiàng)任務(wù)。

基礎(chǔ)模型主要在高端的高性能計(jì)算（HPC）基礎(chǔ)設(shè)施上運(yùn)行，雖然這些系統(tǒng)很可靠，但I(xiàn)BM提到，對于許多想要自己訓(xùn)練基礎(chǔ)模型，并且僅供自己使用的人來說，HPC設(shè)備是一個(gè)極高的門檻，包括高端GPU搭配低延遲InfiniBand網(wǎng)絡(luò)系統(tǒng)，以及各種專門的操作流程等。

而IBM研究人員與PyTorch分布式團(tuán)隊(duì)合作，尋找出可在網(wǎng)絡(luò)硬件上，訓(xùn)練大型人工智能模型的方法，而這個(gè)聯(lián)合小組也已經(jīng)驗(yàn)證，可以在Red Hat的OpenShift平臺上，使用基于以太網(wǎng)絡(luò)的常規(guī)網(wǎng)絡(luò)，來擴(kuò)展和訓(xùn)練大型模型。

使用PyTorch的完全分片資料平行技術(shù)（FSDP），該團(tuán)隊(duì)可以在IBM Cloud上的標(biāo)準(zhǔn)以太網(wǎng)絡(luò)，訓(xùn)練具有110億參數(shù)的模型，實(shí)現(xiàn)與HPC網(wǎng)絡(luò)系統(tǒng)同等規(guī)模的高效率訓(xùn)練。研究人員提到，過去嘗試使用以太網(wǎng)絡(luò)，在PyTorch上訓(xùn)練數(shù)十億參數(shù)的模型，但是效果不佳，遠(yuǎn)低于訓(xùn)練基礎(chǔ)模型所需要的性能，隨著模型規(guī)模增長，只有當(dāng)GPU能夠完整包存模型副本和訓(xùn)練狀態(tài)時(shí)，資料平行訓(xùn)練的標(biāo)準(zhǔn)方法才能發(fā)揮作用。

雖然FSDP或DeepSpeed等新方法可以在訓(xùn)練期間，有效地將模型和資料分散到多個(gè)GPU上，但也只限于HPC系統(tǒng)，而無法在由以太網(wǎng)絡(luò)連接的系統(tǒng)上運(yùn)行。為此，聯(lián)合研究團(tuán)隊(duì)開發(fā)了一個(gè)FSDP API，并構(gòu)建rate_limiter控件，該組件可以控制用于發(fā)送和接收張量所使用的內(nèi)存，進(jìn)而緩解系統(tǒng)的內(nèi)存壓力，使效率較之前提高達(dá)4.5倍。

這項(xiàng)研究使用的基礎(chǔ)設(shè)施為現(xiàn)成的硬件，該系統(tǒng)在IBM Cloud上運(yùn)行，由200個(gè)節(jié)點(diǎn)組成，每個(gè)節(jié)點(diǎn)有8張Nvidia A100 80GB顯卡，與96 vCPU、1.2TB CPU內(nèi)存，節(jié)點(diǎn)內(nèi)的顯卡以NVLink連接，顯卡之間帶寬為600 GBps，而節(jié)點(diǎn)之間通過兩條100 Gbps以太網(wǎng)絡(luò)連接，提供120 GBps可用帶寬。

該GPU系統(tǒng)自5月來持續(xù)運(yùn)行，研究人員配置Red Hat OpenShift容器平臺執(zhí)行人工智能負(fù)載，用于大型人工智能模型的端到端訓(xùn)練、微調(diào)和推理。研究人員提到，這是目前該產(chǎn)業(yè)中，第一個(gè)使用Kubernetes、PyTorch FSDP API和標(biāo)準(zhǔn)以太網(wǎng)絡(luò)，高效率實(shí)現(xiàn)高達(dá)110億個(gè)參數(shù)模型的用例，而這將有助于其他組織以更具成本效益的方式，在云計(jì)算訓(xùn)練大型模型。

AI IBM Cloud 云計(jì)算

上一篇：經(jīng)歷挫折的Playtika，如何重返增長渠道？

原文鏈接：點(diǎn)擊前往 >

版權(quán)說明：本文內(nèi)容來自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對觀點(diǎn)贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章