面對魔搭ModelScope社區(qū)提供的海量模型,用戶總是希望能快速進(jìn)行選型并生產(chǎn)使用,但往往會面臨算力管理難、模型部署難等一系列問題。
那么有沒有可能既能快速把選定的模型部署在云端功能強(qiáng)大的GPU上,由云端負(fù)責(zé)服務(wù),擴(kuò)展,保護(hù)和監(jiān)控模型服務(wù),又同時免于運(yùn)維和管理云上算力等基礎(chǔ)設(shè)施呢?
魔搭ModelScope+函數(shù)計算FC提供了這樣一種方案。
魔搭+函數(shù)計算,一鍵部署模型上云
魔搭ModelScope社區(qū)模型服務(wù)SwingDeploy,支持將模型從魔搭社區(qū)的模型庫一鍵部署至用戶阿里云賬號的云資源上,并根據(jù)模型資源要求為用戶自動推薦最佳部署配置。
開發(fā)者可以將魔搭開源模型一鍵部署至阿里云函數(shù)計算,系統(tǒng)會選擇對應(yīng)的機(jī)器配置。按需使用的方式可以根據(jù)工作負(fù)載動態(tài)調(diào)劑資源,節(jié)約機(jī)器使用成本,5分鐘完成從開源模型至模型推理API服務(wù)的生產(chǎn)轉(zhuǎn)換。
得益于阿里云函數(shù)計算的產(chǎn)品能力,魔搭SwingDeploy后的模型推理API服務(wù)默認(rèn)具備極致彈性伸縮(縮零能力)、GPU虛擬化(最小1GB顯存粒度)、異步調(diào)用能力、按用付費、閑置計費等能力,這些能力幫助算法工程師大大加快了魔搭開源模型投入生產(chǎn)的生命周期。
以百川智能的大型語言模型為例
接下來,我們將演示如何利用魔搭ModelScope社區(qū)的一鍵部署技術(shù)(SwingDeploy)。選取百川智能的大語言模型(LLM)為案例,將其部署至函數(shù)計算平臺并啟用閑置計費。我們將提供一系列詳盡的步驟指南:
準(zhǔn)備工作
1.打開ModelScope官網(wǎng),登錄/注冊賬號
2.綁定阿里云賬號后,可使用在線調(diào)試、訓(xùn)練及部署等能力
模型部署
1.導(dǎo)航至模型卡片:請在魔搭ModelScope社區(qū)的模型庫頁面進(jìn)行搜索,定位到"baichuan2-7b-chat-4bits",并點擊進(jìn)入該模型的詳細(xì)頁面。您還可以通過URL直接訪問該模型卡片。
2.執(zhí)行快速部署操作:請在模型卡片的右上角找到并點擊“部署”按鈕,并從下拉菜單中選擇“快速部署(SwingDeploy)”,隨后選擇“函數(shù)計算(FC)”作為目標(biāo)部署平臺。
在隨后出現(xiàn)的彈窗中,您可以對模型的部署參數(shù)進(jìn)行詳細(xì)配置,這包括選擇適當(dāng)?shù)哪P桶姹尽⒉渴鸬牡乩韰^(qū)域、顯卡型號以及需要的顯存容量等。完成這些必要設(shè)置后,請點擊“一鍵部署”以初始化部署過程。
注意:目前函數(shù)計算GPU的閑置計費模式只適用于杭州和上海地區(qū),并且僅限于整卡使用。因此,在配置部署選項時,請確保地域設(shè)置為杭州或上海,并選擇相應(yīng)的顯存容量,即16GB對應(yīng)于T4顯卡型號,或24GB對應(yīng)于A10顯卡型號。
3.確認(rèn)部署成功:成功執(zhí)行“一鍵部署”后,ModelScope將開始將模型部署到函數(shù)計算云服務(wù),此過程通常需要1至5分鐘完成。部署完畢時,您可返回ModelScope主頁,導(dǎo)航至“模型服務(wù)”下的“部署服務(wù)(SwingDeploy)”板塊,以確認(rèn)部署狀態(tài)顯示為“部署成功”。
啟用預(yù)留閑置模式
1.將模型服務(wù)配置為預(yù)留模式:ModelScope會默認(rèn)使用按量模式進(jìn)行部署,為了優(yōu)化成本和性能,您需要將模型服務(wù)配置為預(yù)留模式。這可以通過點擊“服務(wù)模式切換”至“預(yù)留模式”來實現(xiàn)。
2.激活預(yù)留模式的閑置計費功能:完成服務(wù)模式的切換至“預(yù)留模式”之后,您需要再次點擊服務(wù)模式的切換按鈕。隨后,在彈出的窗口中選擇“更改配置”,這將引導(dǎo)您跳轉(zhuǎn)至函數(shù)計算控制臺。在控制臺的“函數(shù)彈性管理”頁面,激活“閑置計費”選項并保存設(shè)置,以啟用函數(shù)計算GPU函數(shù)的閑置計費模式。這將有助于您在保留資源的同時優(yōu)化成本效益。
在成功激活閑置計費模式后,在函數(shù)的彈性管理界面中,您將看到“閑置計費模式已開啟”。此時,當(dāng)“當(dāng)前實例數(shù)”與“目標(biāo)預(yù)留實例數(shù)”一致時,表明所有的閑置實例均已成功啟動并處于待命狀態(tài)。
開始使用
根據(jù)魔搭ModelScope模型服務(wù)里的“立即使用”說明,我們可以順利調(diào)用到該次部署的LLM模型。
LLM一覽表
由于當(dāng)前社區(qū)以及多種層出不窮的大語言模型(LLM),本表格僅列舉了當(dāng)前熱度較高的常用LLM基礎(chǔ)模型,在其之上的微調(diào)模型同樣是可以部署至函數(shù)計算平臺,并開啟閑置預(yù)留模式。
函數(shù)計算大幅降低用戶GPU成本
隨著AGI技術(shù)的迅速發(fā)展,各類型企業(yè)越來越多地依賴于GPU計算資源來推動他們的業(yè)務(wù)增長。正在使用或計劃部署大型語言模型(LLM)等先進(jìn)技術(shù)的客戶,可能有優(yōu)先考慮成本效率。函數(shù)計算推出GPU閑置計費功能,在保障性能的前提下,可以幫助用戶大幅降低GPU的成本開銷。
GPU閑置計費——實時/準(zhǔn)實時推理服務(wù)部署方式的革新
函數(shù)計算GPU閑置計費功能是一個行業(yè)領(lǐng)先的創(chuàng)新,它允許用戶在不犧牲性能的前提下,以更低的成本使用GPU資源。
這個新功能旨在解決傳統(tǒng)GPU計費模式中的一個常見問題:即便GPU實例在沒有服務(wù)請求時,用戶仍然需要支付全部的資源消耗費用。
現(xiàn)在,通過函數(shù)計算后臺的顯存管理,函數(shù)計算實例的GPU資源只有當(dāng)請求到來時,才會被激活;當(dāng)請求完成后,GPU資源自動被函數(shù)計算平臺凍結(jié),用戶無需為高昂的GPU使用費用買單。
部署LLM的成本效益分析
以往部署大型語言模型(LLM)可能需要昂貴的GPU支持,尤其在需要大量計算資源時。但請求處理并不是每時每刻都處于活躍狀態(tài),勢必存在流量的潮汐現(xiàn)象,后端的計算資源會出現(xiàn)空載導(dǎo)致成本的浪費。
借助函數(shù)計算GPU閑置計費功能,用戶的開銷將會根據(jù)實際計算負(fù)載動態(tài)調(diào)整。在函數(shù)計算的GPU閑置模式下,當(dāng)實例活躍時GPU單價為0.00011元/GB 秒;當(dāng)實例進(jìn)入閑置模式后,閑置GPU單價為0.000009/GB 秒。閑置下的使用成本僅為活躍狀態(tài)的1/10。
讓我們以一個實際的例子來說明這種計費方式的成本效果:
某AI初創(chuàng)公司使用LLM微調(diào)模型提供客服機(jī)器人業(yè)務(wù),客戶需要確??头C(jī)器人業(yè)務(wù)能夠快速響應(yīng)用戶的請求,因此對于冷啟動時間有較高的要求,所以無法選擇按量付費模式,他們選擇了預(yù)留實例模式來避免冷啟動問題;但同時也發(fā)現(xiàn),平均到每一個小時,GPU資源并不是滿載的,真正發(fā)生在GPU實例上的請求時長總計只有20分鐘,進(jìn)而他們選擇了函數(shù)計算業(yè)內(nèi)首創(chuàng)的閑置預(yù)留模式。
基于這樣典型的場景,根據(jù)函數(shù)計算GPU的計費模式我們來算這樣一筆賬:
如果僅使用GPU實例預(yù)留模式:該客戶會選擇在業(yè)務(wù)高峰時期,預(yù)留10個16GB顯存的實例為業(yè)務(wù)提供推理請求,GPU實例使用單價,GPU部分的資源開銷約為6.34元/時/實例。
但使用GPU實例預(yù)留模式+閑置計費后:同樣預(yù)留10個16GB顯存的實例為業(yè)務(wù)提供推理請求,我們以40分鐘閑置,20分鐘活躍來進(jìn)行計算,總GPU部分資源成本約為2.46元/時/實例。
以上面的例子進(jìn)行成本的推演,我們可以看到閑置計費模式可以節(jié)省60%的GPU資源成本。
開通函數(shù)計算獲試用額度
函數(shù)計算為首次開通服務(wù)的用戶提供免費試用額度,試用額度的有效期為3個月,自購買之日起,超出試用額度的部分均會計入按量付費。試用額度的詳細(xì)信息如下。
GPU試用額度:前100萬GB 秒GPU資源使用免費。
vCPU試用額度:前50萬vCPU 秒vCPU資源使用免費。
內(nèi)存試用額度:前200萬GB 秒內(nèi)存資源使用免費。
函數(shù)調(diào)用試用額度:前800萬次函數(shù)調(diào)用免費。
除以上試用額度,2023年12月19日0時之后,函數(shù)計算還為首次開通服務(wù)的用戶發(fā)放有效期3個月、每個月100 GB的CDT公網(wǎng)流量試用額度。
快來部署使用吧~