魔搭大模型一鍵部署到阿里云函數(shù)計算,GPU閑置計費功能可大幅降低開銷

來源:阿里云
作者:深藍(lán)、筱姜、橙語
時間:2024-01-02
3246
面對魔搭ModelScope社區(qū)提供的海量模型,用戶總是希望能快速進(jìn)行選型并生產(chǎn)使用,但往往會面臨算力管理難、模型部署難等一系列問題。

面對魔搭ModelScope社區(qū)提供的海量模型,用戶總是希望能快速進(jìn)行選型并生產(chǎn)使用,但往往會面臨算力管理難、模型部署難等一系列問題。

那么有沒有可能既能快速把選定的模型部署在云端功能強(qiáng)大的GPU上,由云端負(fù)責(zé)服務(wù),擴(kuò)展,保護(hù)和監(jiān)控模型服務(wù),又同時免于運(yùn)維和管理云上算力等基礎(chǔ)設(shè)施呢?

魔搭ModelScope+函數(shù)計算FC提供了這樣一種方案。

魔搭+函數(shù)計算,一鍵部署模型上云

魔搭ModelScope社區(qū)模型服務(wù)SwingDeploy,支持將模型從魔搭社區(qū)的模型庫一鍵部署至用戶阿里云賬號的云資源上,并根據(jù)模型資源要求為用戶自動推薦最佳部署配置。

開發(fā)者可以將魔搭開源模型一鍵部署至阿里云函數(shù)計算,系統(tǒng)會選擇對應(yīng)的機(jī)器配置。按需使用的方式可以根據(jù)工作負(fù)載動態(tài)調(diào)劑資源,節(jié)約機(jī)器使用成本,5分鐘完成從開源模型至模型推理API服務(wù)的生產(chǎn)轉(zhuǎn)換。

得益于阿里云函數(shù)計算的產(chǎn)品能力,魔搭SwingDeploy后的模型推理API服務(wù)默認(rèn)具備極致彈性伸縮(縮零能力)、GPU虛擬化(最小1GB顯存粒度)、異步調(diào)用能力、按用付費、閑置計費等能力,這些能力幫助算法工程師大大加快了魔搭開源模型投入生產(chǎn)的生命周期。

以百川智能的大型語言模型為例

接下來,我們將演示如何利用魔搭ModelScope社區(qū)的一鍵部署技術(shù)(SwingDeploy)。選取百川智能的大語言模型(LLM)為案例,將其部署至函數(shù)計算平臺并啟用閑置計費。我們將提供一系列詳盡的步驟指南:

準(zhǔn)備工作

1.打開ModelScope官網(wǎng),登錄/注冊賬號

640.png

2.綁定阿里云賬號后,可使用在線調(diào)試、訓(xùn)練及部署等能力

640

模型部署

1.導(dǎo)航至模型卡片:請在魔搭ModelScope社區(qū)的模型庫頁面進(jìn)行搜索,定位到"baichuan2-7b-chat-4bits",并點擊進(jìn)入該模型的詳細(xì)頁面。您還可以通過URL直接訪問該模型卡片。

640

2.執(zhí)行快速部署操作:請在模型卡片的右上角找到并點擊“部署”按鈕,并從下拉菜單中選擇“快速部署(SwingDeploy)”,隨后選擇“函數(shù)計算(FC)”作為目標(biāo)部署平臺。

640

在隨后出現(xiàn)的彈窗中,您可以對模型的部署參數(shù)進(jìn)行詳細(xì)配置,這包括選擇適當(dāng)?shù)哪P桶姹尽⒉渴鸬牡乩韰^(qū)域、顯卡型號以及需要的顯存容量等。完成這些必要設(shè)置后,請點擊“一鍵部署”以初始化部署過程。

注意:目前函數(shù)計算GPU的閑置計費模式只適用于杭州和上海地區(qū),并且僅限于整卡使用。因此,在配置部署選項時,請確保地域設(shè)置為杭州或上海,并選擇相應(yīng)的顯存容量,即16GB對應(yīng)于T4顯卡型號,或24GB對應(yīng)于A10顯卡型號。

640

3.確認(rèn)部署成功:成功執(zhí)行“一鍵部署”后,ModelScope將開始將模型部署到函數(shù)計算云服務(wù),此過程通常需要1至5分鐘完成。部署完畢時,您可返回ModelScope主頁,導(dǎo)航至“模型服務(wù)”下的“部署服務(wù)(SwingDeploy)”板塊,以確認(rèn)部署狀態(tài)顯示為“部署成功”。

640

啟用預(yù)留閑置模式

1.將模型服務(wù)配置為預(yù)留模式:ModelScope會默認(rèn)使用按量模式進(jìn)行部署,為了優(yōu)化成本和性能,您需要將模型服務(wù)配置為預(yù)留模式。這可以通過點擊“服務(wù)模式切換”至“預(yù)留模式”來實現(xiàn)。

640

2.激活預(yù)留模式的閑置計費功能:完成服務(wù)模式的切換至“預(yù)留模式”之后,您需要再次點擊服務(wù)模式的切換按鈕。隨后,在彈出的窗口中選擇“更改配置”,這將引導(dǎo)您跳轉(zhuǎn)至函數(shù)計算控制臺。在控制臺的“函數(shù)彈性管理”頁面,激活“閑置計費”選項并保存設(shè)置,以啟用函數(shù)計算GPU函數(shù)的閑置計費模式。這將有助于您在保留資源的同時優(yōu)化成本效益。

640

在成功激活閑置計費模式后,在函數(shù)的彈性管理界面中,您將看到“閑置計費模式已開啟”。此時,當(dāng)“當(dāng)前實例數(shù)”與“目標(biāo)預(yù)留實例數(shù)”一致時,表明所有的閑置實例均已成功啟動并處于待命狀態(tài)。

640

開始使用

根據(jù)魔搭ModelScope模型服務(wù)里的“立即使用”說明,我們可以順利調(diào)用到該次部署的LLM模型。

640

LLM一覽表

由于當(dāng)前社區(qū)以及多種層出不窮的大語言模型(LLM),本表格僅列舉了當(dāng)前熱度較高的常用LLM基礎(chǔ)模型,在其之上的微調(diào)模型同樣是可以部署至函數(shù)計算平臺,并開啟閑置預(yù)留模式。

1704168978440.png

函數(shù)計算大幅降低用戶GPU成本

隨著AGI技術(shù)的迅速發(fā)展,各類型企業(yè)越來越多地依賴于GPU計算資源來推動他們的業(yè)務(wù)增長。正在使用或計劃部署大型語言模型(LLM)等先進(jìn)技術(shù)的客戶,可能有優(yōu)先考慮成本效率。函數(shù)計算推出GPU閑置計費功能,在保障性能的前提下,可以幫助用戶大幅降低GPU的成本開銷。

GPU閑置計費——實時/準(zhǔn)實時推理服務(wù)部署方式的革新

函數(shù)計算GPU閑置計費功能是一個行業(yè)領(lǐng)先的創(chuàng)新,它允許用戶在不犧牲性能的前提下,以更低的成本使用GPU資源。

這個新功能旨在解決傳統(tǒng)GPU計費模式中的一個常見問題:即便GPU實例在沒有服務(wù)請求時,用戶仍然需要支付全部的資源消耗費用。

現(xiàn)在,通過函數(shù)計算后臺的顯存管理,函數(shù)計算實例的GPU資源只有當(dāng)請求到來時,才會被激活;當(dāng)請求完成后,GPU資源自動被函數(shù)計算平臺凍結(jié),用戶無需為高昂的GPU使用費用買單。

部署LLM的成本效益分析

以往部署大型語言模型(LLM)可能需要昂貴的GPU支持,尤其在需要大量計算資源時。但請求處理并不是每時每刻都處于活躍狀態(tài),勢必存在流量的潮汐現(xiàn)象,后端的計算資源會出現(xiàn)空載導(dǎo)致成本的浪費。

借助函數(shù)計算GPU閑置計費功能,用戶的開銷將會根據(jù)實際計算負(fù)載動態(tài)調(diào)整。在函數(shù)計算的GPU閑置模式下,當(dāng)實例活躍時GPU單價為0.00011元/GB 秒;當(dāng)實例進(jìn)入閑置模式后,閑置GPU單價為0.000009/GB 秒。閑置下的使用成本僅為活躍狀態(tài)的1/10。

讓我們以一個實際的例子來說明這種計費方式的成本效果:

某AI初創(chuàng)公司使用LLM微調(diào)模型提供客服機(jī)器人業(yè)務(wù),客戶需要確??头C(jī)器人業(yè)務(wù)能夠快速響應(yīng)用戶的請求,因此對于冷啟動時間有較高的要求,所以無法選擇按量付費模式,他們選擇了預(yù)留實例模式來避免冷啟動問題;但同時也發(fā)現(xiàn),平均到每一個小時,GPU資源并不是滿載的,真正發(fā)生在GPU實例上的請求時長總計只有20分鐘,進(jìn)而他們選擇了函數(shù)計算業(yè)內(nèi)首創(chuàng)的閑置預(yù)留模式。

基于這樣典型的場景,根據(jù)函數(shù)計算GPU的計費模式我們來算這樣一筆賬:

如果僅使用GPU實例預(yù)留模式:該客戶會選擇在業(yè)務(wù)高峰時期,預(yù)留10個16GB顯存的實例為業(yè)務(wù)提供推理請求,GPU實例使用單價,GPU部分的資源開銷約為6.34元/時/實例。

但使用GPU實例預(yù)留模式+閑置計費后:同樣預(yù)留10個16GB顯存的實例為業(yè)務(wù)提供推理請求,我們以40分鐘閑置,20分鐘活躍來進(jìn)行計算,總GPU部分資源成本約為2.46元/時/實例。

以上面的例子進(jìn)行成本的推演,我們可以看到閑置計費模式可以節(jié)省60%的GPU資源成本。

開通函數(shù)計算獲試用額度

函數(shù)計算為首次開通服務(wù)的用戶提供免費試用額度,試用額度的有效期為3個月,自購買之日起,超出試用額度的部分均會計入按量付費。試用額度的詳細(xì)信息如下。

GPU試用額度:前100萬GB 秒GPU資源使用免費。

vCPU試用額度:前50萬vCPU 秒vCPU資源使用免費。

內(nèi)存試用額度:前200萬GB 秒內(nèi)存資源使用免費。

函數(shù)調(diào)用試用額度:前800萬次函數(shù)調(diào)用免費。

除以上試用額度,2023年12月19日0時之后,函數(shù)計算還為首次開通服務(wù)的用戶發(fā)放有效期3個月、每個月100 GB的CDT公網(wǎng)流量試用額度。

快來部署使用吧~

立即登錄,閱讀全文
原文鏈接:點擊前往 >
版權(quán)說明:本文內(nèi)容來自于阿里云,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
相關(guān)文章
阿里云助力《誅仙世界》端游正式開服!
阿里云助力《誅仙世界》端游正式開服!
近?,完美世界游戲歷時多年打造的新國?仙俠MMORPG端游《誅仙世界》在阿?云上正式開服。
阿里云
云服務(wù)
2024-12-29
一文詳解阿里云AI大基建
一文詳解阿里云AI大基建
面向AI時代,阿里云基礎(chǔ)設(shè)施是如何創(chuàng)新與發(fā)展的?計算、網(wǎng)絡(luò)、存儲、服務(wù)器、集群、可觀測等,阿里云全新升級的AI Infra到底有哪些重磅更新?
阿里云
云服務(wù)
2024-11-02
AI時代云安全新范式,阿里云安全能力全線升級!
AI時代云安全新范式,阿里云安全能力全線升級!
AI時代,云安全面臨著新的挑戰(zhàn),不僅要持續(xù)面對以往的傳統(tǒng)問題,更需要全新理念落地于產(chǎn)品設(shè)計、技術(shù)演進(jìn)、架構(gòu)設(shè)計,才能實現(xiàn)效果、性能、和成本的最優(yōu)解。
AI
阿里云
云服務(wù)
2024-09-27
連續(xù)四年!阿里云領(lǐng)跑中國公有云大數(shù)據(jù)平臺
連續(xù)四年!阿里云領(lǐng)跑中國公有云大數(shù)據(jù)平臺
近日,國際數(shù)據(jù)公司(IDC)發(fā)布《中國大數(shù)據(jù)平臺市場份額,2023:數(shù)智融合時代的真正到來》報告——2023年中國大數(shù)據(jù)平臺公有云服務(wù)市場規(guī)模達(dá)72.2億元人民幣,其中阿里巴巴市場份額保持領(lǐng)先,占比達(dá)40.2%,連續(xù)四年排名第一。
阿里云
云服務(wù)
2024-09-18
優(yōu)質(zhì)服務(wù)商推薦
更多
個人VIP