升級版Workers AI:已正式發(fā)布-更多新增功能

來源:Cloudflare
作者:Cloudflare
時間:2024-06-11
3089
今天我們將通過本篇文章與大家分享我們的最新AI產(chǎn)品公告和愿景,包括:Workers AI正式發(fā)布并提供更理想的定價,GPU硬件更新動態(tài),我們與Hugging Face的合作伙伴關系進一步擴大,自帶LoRA微調(diào)推理,Workers的Python支持,AI Gateway增加更多提供商,以及Vectorize元數(shù)據(jù)過濾等消息。

今天我們將通過本篇文章與大家分享我們的最新AI產(chǎn)品公告和愿景,包括:Workers AI正式發(fā)布并提供更理想的定價,GPU硬件更新動態(tài),我們與Hugging Face的合作伙伴關系進一步擴大,自帶LoRA微調(diào)推理,Workers的Python支持,AI Gateway增加更多提供商,以及Vectorize元數(shù)據(jù)過濾等消息。

Workers AI正式發(fā)布

我們的Workers AI推理平臺已正式發(fā)布。經(jīng)過幾個月的公測,我們改進了服務,提高了可靠性和性能,公布了定價,并在目錄中增加了更多模型。

-提高性能和可靠性

通過Workers AI,我們的目標是使AI推理像Cloudflare網(wǎng)絡的其余部分一樣可靠易用。在幕后,我們已經(jīng)升級了Workers AI中內(nèi)置的負載平衡?,F(xiàn)在,請求可以路由到更多城市中的更多GPU,且每個城市都知道AI推理的總可用容量。如果請求在當前城市必須排隊,它可被路由到另一個位置,以便在高流量情況下更快地將結果返回給您。同時,我們已經(jīng)提高了所有模型的速率限制,大多數(shù)LLM現(xiàn)在每分鐘可處理300個請求,而不是測試期間的每分鐘50個請求。較小的模型有每分鐘1500-3000個請求的限制。請查看我們的開發(fā)人員文檔,了解各個模型的速率限制。

-降低熱門模型的成本

在Workers AI正式發(fā)布的同時,我們還公布了10個非測試版模型的定價計算器。我們希望Workers AI成為運行推理最經(jīng)濟、最便捷的解決方案之一,因此對我們的模型進行了一些優(yōu)化,使它們更經(jīng)濟實惠。現(xiàn)在,與我們最初在3月1日公布的數(shù)據(jù)相比,Llama 2的運行成本降低了7倍多,Mistral 7B的運行成本降低了14倍多。我們希望繼續(xù)成為AI推理的最佳平臺,并將在可能的情況下繼續(xù)向客戶推出優(yōu)化迭代。

提醒一下,我們從4月1日開始對Workers AI的非測試版模型計費,而測試版模型仍然是免費和無限制的。我們每天免費向所有客戶提供10000個神經(jīng)元。Workers Free用戶在24小時內(nèi)使用10000個神經(jīng)元后將遇到嚴格速率限制,而Workers Paid用戶每增加1000個神經(jīng)元將產(chǎn)生0.011美元的費用。請閱讀我們的Workers AI定價開發(fā)人員文檔,了解有關定價的最新信息。

-全新儀表板和演練場

最后,我們改造了Workers AI儀表板和AI演練場。Cloudflare面板中的Workers AI頁面現(xiàn)在可顯示各個模型的使用分析,包括神經(jīng)元計算,以幫助您更好地預測定價。AI演練場可讓您快速測試和比較不同的模型,并配置提示詞和參數(shù)。我們希望這些新工具能幫助開發(fā)人員開始在Workers AI上進行無縫構建——歡迎嘗試!

31B3077F-1289-43BD-862A-00AFB30CA6F4.jpeg

在分布全球150多個城市的GPU上運行推理

DF059D57-408F-45D4-A024-C51CBF072671.jpeg

2023年9月剛宣布推出Workers AI時,我們就開始在世界各地的數(shù)據(jù)中心部署GPU。我們計劃兌現(xiàn)這一承諾,于2024年底前在幾乎所有地方部署經(jīng)過推理微調(diào)的GPU,使我們成為分布最廣泛的云AI推理平臺。目前,我們已在150多個城市部署了GPU,并將在今年陸續(xù)推出更多GPU。

54D0914D-6869-4108-AD22-F1C7C9CD4A18.jpeg

我們還將在2024年第二季度推出配備GPU的下一代計算服務器。這意味著與前幾代產(chǎn)品相比,下一代產(chǎn)品具有更高的性能、能效和可靠性。我們在2023年12月發(fā)表的一篇博客文章中提供了第12代計算服務器設計的預覽,更多細節(jié)將陸續(xù)公布。通過第12代和未來計劃推出的硬件,下一步是支持更大的機器學習模型,并在我們的平臺上提供微調(diào)。這將使我們能夠為生產(chǎn)工作負載實現(xiàn)更大的推理吞吐量、更低的延遲和更高的可用性,并擴大對微調(diào)等新型工作負載的支持。

Huggingface合作伙伴關系

AA454F7B-B59E-45BC-A04D-62338BE22052.jpeg

我們很高興能推進與Hugging Face之間的合作關系,致力于為我們的客戶提供更優(yōu)的開源技術?,F(xiàn)在,您可以訪問Hugging Face上一些最受歡迎的模型,如果該模型在我們的平臺上可用,您只需輕松點擊該模型便可在Workers AI上運行。

AD8DE821-74E7-40C8-B417-C0427DCAC8B8.jpeg

通過與Hugging Face的合作,我們的平臺添加了4個模型。您現(xiàn)在可以訪問改進了上下文窗口的全新Mistral 7B v0.2模型、Nous Research的Hermes 2 Pro微調(diào)版Mistral 7B、Google的Gemma 7B和來自OpenChat的Starling-LM-7B-beta微調(diào)版。目前,我們與Hugging Face合作管理著14個模型,用于在Cloudflare的Workers AI運行無服務器GPU推理-更多模型即將推出。這些模型均使用Hugging Face的技術通過TGI后端提供服務,我們與Hugging Face團隊密切合作,共同策劃、優(yōu)化和部署了這些模型。

“我們很高興能與Cloudflare合作,讓開發(fā)人員更容易利用AI。對Hugging Face社區(qū)來說,通過全球GPU網(wǎng)絡支持的無服務器API提供最流行的開放模型是一個非常棒的提議,我迫不及待想看看他們會用它構建什么?!?/p>

-Julien Chaumond,聯(lián)合創(chuàng)始人兼首席技術官,Hugging Face

您可以在Hugging Face Collection中找到Workers AI支持的所有開放模型,“部署到Cloudflare Workers AI”按鈕位于每個模型卡的頂部。

支持微調(diào)推理——自帶LoRA

微調(diào)推理是用戶呼聲最高的Workers AI功能之一,現(xiàn)在我們離自帶(BYO)LoRA又近了一步。研究人員利用流行的低階適應(Low-Rank Adaptation)方法,找到了如何對一個模型根據(jù)手頭的任務調(diào)整部分模型參數(shù)的方法,而不是重寫所有模型參數(shù)(就像完全微調(diào)模型一樣)。這意味著,無需付出完全微調(diào)模型的計算費用,您就可以獲得微調(diào)模型的輸出。

我們現(xiàn)在支持將經(jīng)過訓練的LoRA帶到Workers AI,我們在運行時將LoRA適配器應用于基礎模型,為您提供經(jīng)過微調(diào)的推理,成本、大小和速度僅為完全微調(diào)模型的一小部分。未來,我們希望能夠在我們的平臺上直接支持微調(diào)任務和完全微調(diào)模型,但我們依然很高興在這一階段能夠通過LoRA更進一步。

1B69ED47-1B58-47DD-9A7E-F929E517A764.jpeg

BYO LoRAs現(xiàn)已開放測試,適用于Gemma 2B和7B、Llama 2 7B和Mistral 7B模型,LoRA適配器大小不超過100MB,最高8階,每個賬戶最多30個LoRA。一如既往,我們希望您在使用Workers AI和新的BYO LoRA功能時遵守我們的服務條款,包括模型許可條款中包含的任何模型特定使用限制。

用Python編寫Workers

Python是世界上第二流行的編程語言(僅次于JavaScript),也是構建AI應用程序的首選語言。現(xiàn)在開始,在公測版中,您可以用Python編寫Cloudflare Workers。Python Workers支持與Cloudflare資源的所有綁定,包括Vectorize、D1、KV、R2等。

LangChain是構建由LLM驅動的應用程序的最流行框架,就像Workers AI與langchain-js協(xié)作一樣,Python LangChain庫也能在Python Workers上運行,就像FastAPI等其他Python軟件包一樣。

用Python編寫Workers與使用JavaScript編寫Workers一樣簡單:

1F07377C-629A-47DD-B869-2591BF4DB230.jpeg

……只需在Wrangler.toml中指向一個.py文件即可進行配置:

914FF40E-F83C-46D0-AC6E-9E61B672769A.jpeg

無需額外的工具鏈或預編譯步驟。Pyodide Python執(zhí)行環(huán)境由Workers運行時直接提供,工作方式與JavaScript編寫的Workers如出一轍。

AI Gateway現(xiàn)已支持Anthropic、Azure、AWS Bedrock、Google Vertex和Perplexity

6B353655-343D-4F0A-8111-68B6A34554FF.jpeg

我們的AI Gateway產(chǎn)品幫助開發(fā)人員更好地控制和觀察他們的AI應用,提供分析、緩存、速率限制等功能。我們正繼續(xù)為該產(chǎn)品添加更多供應商,包括最近加入的Anthropic、Google Vertex和Perplexity。我們在2023年12月推出了對Azure和Amazon Bedrock的支持,這意味著最流行的提供商現(xiàn)在都可以通過AI Gateway獲得支持,包括Workers AI本身。

即將推出:持久日志(Persistent Logs)

在2024年第二季度,我們將推出持久日志,以便將日志(包括提示詞和響應)推送到對象存儲;自定義元數(shù)據(jù),以便使用用戶ID或其他標識符標記請求;機密管理,以便安全地管理應用程序的API密鑰。

我們希望AI Gateway成為您的AI應用程序控制平面,允許開發(fā)人員動態(tài)評估并將請求路由到不同的模型和提供商。通過持久日志功能,我們希望讓開發(fā)人員能夠使用他們記錄的數(shù)據(jù)一鍵微調(diào)模型,最終在我們的Workers AI平臺上直接運行微調(diào)任務和微調(diào)模型。AI Gateway只是我們AI工具包中的產(chǎn)品之一,但我們對它能為在我們平臺上開發(fā)的開發(fā)人員解鎖的工作流程和用例感到興奮,希望您也能為之興奮。

Vectorize元數(shù)據(jù)過濾,正式版將支持百萬向量索引

Vectorize是我們AI應用程序工具包的另一個組件。自2023年9月公測以來,Vectorize允許開發(fā)人員持久化嵌入(向量),例如從Workers AI文本嵌入模型生成的那些,并查詢最接近的匹配,以支持相似性搜索或推薦等用例。如果沒有向量數(shù)據(jù)庫,模型輸出會被遺忘而無法調(diào)用,除非投入額外成本并重新運行模型。

自Vectorize公測發(fā)布以來,我們增加了元數(shù)據(jù)過濾功能。元數(shù)據(jù)過濾讓開發(fā)人員能夠將向量搜索與任意元數(shù)據(jù)過濾結合起來,支持AI應用中的復雜查詢。我們正全力以赴為Vectorize正式發(fā)布做準備,目標日期就在2024年6月,其中將包括對百萬級索引的支持。

10B80901-67B9-453F-8D94-256178C38F67.jpeg

構建AI應用的最全面開發(fā)人員平臺

在Cloudflare開發(fā)人員平臺上,我們認為所有開發(fā)人員都應該能夠快速構建和發(fā)布全棧應用,其中也包括AI體驗。通過Workers AI正式版、Workers AI的Python支持、AI Gateway、Vectorize以及與Hugging Face的合作關系,擴大了在我們的平臺上構建AI應用程序的可能性。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
文章來源:Cloudflare
版權說明:本文內(nèi)容來自于Cloudflare,本站不擁有所有權,不承擔相關法律責任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
優(yōu)質服務商推薦
更多
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家