魔搭大模型一鍵部署到阿里云函數(shù)計算，GPU閑置計費功能可大幅降低開銷

來源：阿里云

作者：深藍(lán)、筱姜、橙語

時間：2024-01-02

面對魔搭ModelScope社區(qū)提供的海量模型，用戶總是希望能快速進(jìn)行選型并生產(chǎn)使用，但往往會面臨算力管理難、模型部署難等一系列問題。

那么有沒有可能既能快速把選定的模型部署在云端功能強(qiáng)大的GPU上，由云端負(fù)責(zé)服務(wù)，擴(kuò)展，保護(hù)和監(jiān)控模型服務(wù)，又同時免于運(yùn)維和管理云上算力等基礎(chǔ)設(shè)施呢？

魔搭ModelScope+函數(shù)計算FC提供了這樣一種方案。

魔搭+函數(shù)計算，一鍵部署模型上云

魔搭ModelScope社區(qū)模型服務(wù)SwingDeploy，支持將模型從魔搭社區(qū)的模型庫一鍵部署至用戶阿里云賬號的云資源上，并根據(jù)模型資源要求為用戶自動推薦最佳部署配置。

開發(fā)者可以將魔搭開源模型一鍵部署至阿里云函數(shù)計算，系統(tǒng)會選擇對應(yīng)的機(jī)器配置。按需使用的方式可以根據(jù)工作負(fù)載動態(tài)調(diào)劑資源，節(jié)約機(jī)器使用成本，5分鐘完成從開源模型至模型推理API服務(wù)的生產(chǎn)轉(zhuǎn)換。

得益于阿里云函數(shù)計算的產(chǎn)品能力，魔搭SwingDeploy后的模型推理API服務(wù)默認(rèn)具備極致彈性伸縮（縮零能力）、GPU虛擬化（最小1GB顯存粒度）、異步調(diào)用能力、按用付費、閑置計費等能力，這些能力幫助算法工程師大大加快了魔搭開源模型投入生產(chǎn)的生命周期。

以百川智能的大型語言模型為例

接下來，我們將演示如何利用魔搭ModelScope社區(qū)的一鍵部署技術(shù)（SwingDeploy）。選取百川智能的大語言模型（LLM）為案例，將其部署至函數(shù)計算平臺并啟用閑置計費。我們將提供一系列詳盡的步驟指南：

準(zhǔn)備工作

1.打開ModelScope官網(wǎng)，登錄/注冊賬號

2.綁定阿里云賬號后，可使用在線調(diào)試、訓(xùn)練及部署等能力

640

模型部署

1.導(dǎo)航至模型卡片：請在魔搭ModelScope社區(qū)的模型庫頁面進(jìn)行搜索，定位到"baichuan2-7b-chat-4bits"，并點擊進(jìn)入該模型的詳細(xì)頁面。您還可以通過URL直接訪問該模型卡片。

640

2.執(zhí)行快速部署操作：請在模型卡片的右上角找到并點擊“部署”按鈕，并從下拉菜單中選擇“快速部署（SwingDeploy）”，隨后選擇“函數(shù)計算（FC）”作為目標(biāo)部署平臺。

640

在隨后出現(xiàn)的彈窗中，您可以對模型的部署參數(shù)進(jìn)行詳細(xì)配置，這包括選擇適當(dāng)?shù)哪Ｐ桶姹尽⒉渴鸬牡乩韰^(qū)域、顯卡型號以及需要的顯存容量等。完成這些必要設(shè)置后，請點擊“一鍵部署”以初始化部署過程。

注意：目前函數(shù)計算GPU的閑置計費模式只適用于杭州和上海地區(qū)，并且僅限于整卡使用。因此，在配置部署選項時，請確保地域設(shè)置為杭州或上海，并選擇相應(yīng)的顯存容量，即16GB對應(yīng)于T4顯卡型號，或24GB對應(yīng)于A10顯卡型號。

640

3.確認(rèn)部署成功：成功執(zhí)行“一鍵部署”后，ModelScope將開始將模型部署到函數(shù)計算云服務(wù)，此過程通常需要1至5分鐘完成。部署完畢時，您可返回ModelScope主頁，導(dǎo)航至“模型服務(wù)”下的“部署服務(wù)（SwingDeploy）”板塊，以確認(rèn)部署狀態(tài)顯示為“部署成功”。

640

啟用預(yù)留閑置模式

1.將模型服務(wù)配置為預(yù)留模式：ModelScope會默認(rèn)使用按量模式進(jìn)行部署，為了優(yōu)化成本和性能，您需要將模型服務(wù)配置為預(yù)留模式。這可以通過點擊“服務(wù)模式切換”至“預(yù)留模式”來實現(xiàn)。

640

2.激活預(yù)留模式的閑置計費功能：完成服務(wù)模式的切換至“預(yù)留模式”之后，您需要再次點擊服務(wù)模式的切換按鈕。隨后，在彈出的窗口中選擇“更改配置”，這將引導(dǎo)您跳轉(zhuǎn)至函數(shù)計算控制臺。在控制臺的“函數(shù)彈性管理”頁面，激活“閑置計費”選項并保存設(shè)置，以啟用函數(shù)計算GPU函數(shù)的閑置計費模式。這將有助于您在保留資源的同時優(yōu)化成本效益。

640

在成功激活閑置計費模式后，在函數(shù)的彈性管理界面中，您將看到“閑置計費模式已開啟”。此時，當(dāng)“當(dāng)前實例數(shù)”與“目標(biāo)預(yù)留實例數(shù)”一致時，表明所有的閑置實例均已成功啟動并處于待命狀態(tài)。

640

開始使用

根據(jù)魔搭ModelScope模型服務(wù)里的“立即使用”說明，我們可以順利調(diào)用到該次部署的LLM模型。

640

LLM一覽表

由于當(dāng)前社區(qū)以及多種層出不窮的大語言模型（LLM），本表格僅列舉了當(dāng)前熱度較高的常用LLM基礎(chǔ)模型，在其之上的微調(diào)模型同樣是可以部署至函數(shù)計算平臺，并開啟閑置預(yù)留模式。

函數(shù)計算大幅降低用戶GPU成本

隨著AGI技術(shù)的迅速發(fā)展，各類型企業(yè)越來越多地依賴于GPU計算資源來推動他們的業(yè)務(wù)增長。正在使用或計劃部署大型語言模型（LLM）等先進(jìn)技術(shù)的客戶，可能有優(yōu)先考慮成本效率。函數(shù)計算推出GPU閑置計費功能，在保障性能的前提下，可以幫助用戶大幅降低GPU的成本開銷。

GPU閑置計費——實時/準(zhǔn)實時推理服務(wù)部署方式的革新

函數(shù)計算GPU閑置計費功能是一個行業(yè)領(lǐng)先的創(chuàng)新，它允許用戶在不犧牲性能的前提下，以更低的成本使用GPU資源。

這個新功能旨在解決傳統(tǒng)GPU計費模式中的一個常見問題：即便GPU實例在沒有服務(wù)請求時，用戶仍然需要支付全部的資源消耗費用。

現(xiàn)在，通過函數(shù)計算后臺的顯存管理，函數(shù)計算實例的GPU資源只有當(dāng)請求到來時，才會被激活；當(dāng)請求完成后，GPU資源自動被函數(shù)計算平臺凍結(jié)，用戶無需為高昂的GPU使用費用買單。

部署LLM的成本效益分析

以往部署大型語言模型（LLM）可能需要昂貴的GPU支持，尤其在需要大量計算資源時。但請求處理并不是每時每刻都處于活躍狀態(tài)，勢必存在流量的潮汐現(xiàn)象，后端的計算資源會出現(xiàn)空載導(dǎo)致成本的浪費。

借助函數(shù)計算GPU閑置計費功能，用戶的開銷將會根據(jù)實際計算負(fù)載動態(tài)調(diào)整。在函數(shù)計算的GPU閑置模式下，當(dāng)實例活躍時GPU單價為0.00011元/GB 秒；當(dāng)實例進(jìn)入閑置模式后，閑置GPU單價為0.000009/GB 秒。閑置下的使用成本僅為活躍狀態(tài)的1/10。

讓我們以一個實際的例子來說明這種計費方式的成本效果：

某AI初創(chuàng)公司使用LLM微調(diào)模型提供客服機(jī)器人業(yè)務(wù)，客戶需要確?？头C(jī)器人業(yè)務(wù)能夠快速響應(yīng)用戶的請求，因此對于冷啟動時間有較高的要求，所以無法選擇按量付費模式，他們選擇了預(yù)留實例模式來避免冷啟動問題；但同時也發(fā)現(xiàn)，平均到每一個小時，GPU資源并不是滿載的，真正發(fā)生在GPU實例上的請求時長總計只有20分鐘，進(jìn)而他們選擇了函數(shù)計算業(yè)內(nèi)首創(chuàng)的閑置預(yù)留模式。

基于這樣典型的場景，根據(jù)函數(shù)計算GPU的計費模式我們來算這樣一筆賬：

如果僅使用GPU實例預(yù)留模式：該客戶會選擇在業(yè)務(wù)高峰時期，預(yù)留10個16GB顯存的實例為業(yè)務(wù)提供推理請求，GPU實例使用單價，GPU部分的資源開銷約為6.34元/時/實例。

但使用GPU實例預(yù)留模式+閑置計費后：同樣預(yù)留10個16GB顯存的實例為業(yè)務(wù)提供推理請求，我們以40分鐘閑置，20分鐘活躍來進(jìn)行計算，總GPU部分資源成本約為2.46元/時/實例。

以上面的例子進(jìn)行成本的推演，我們可以看到閑置計費模式可以節(jié)省60%的GPU資源成本。

開通函數(shù)計算獲試用額度

函數(shù)計算為首次開通服務(wù)的用戶提供免費試用額度，試用額度的有效期為3個月，自購買之日起，超出試用額度的部分均會計入按量付費。試用額度的詳細(xì)信息如下。

GPU試用額度：前100萬GB 秒GPU資源使用免費。

vCPU試用額度：前50萬vCPU 秒vCPU資源使用免費。

內(nèi)存試用額度：前200萬GB 秒內(nèi)存資源使用免費。

函數(shù)調(diào)用試用額度：前800萬次函數(shù)調(diào)用免費。

除以上試用額度，2023年12月19日0時之后，函數(shù)計算還為首次開通服務(wù)的用戶發(fā)放有效期3個月、每個月100 GB的CDT公網(wǎng)流量試用額度。

快來部署使用吧～