AWS在機(jī)器學(xué)習(xí)服務(wù)Amazon SageMaker添加回應(yīng)流媒體(Response Streaming)新功能,用戶現(xiàn)在可以將模型推論結(jié)果流媒體傳輸至客戶端,在回應(yīng)生成時(shí)立即開(kāi)始流媒體傳輸回應(yīng),不必等待回應(yīng)完全生成,而這將可加速生成式人工智能應(yīng)用程序收到第一個(gè)字節(jié)的時(shí)間。
過(guò)去用戶發(fā)送查詢,需要等待回應(yīng)完全生成完畢,才能夠收到答案,是以批次作業(yè)的方式進(jìn)行,但是這可能會(huì)需要數(shù)秒或是更長(zhǎng)的時(shí)間,官方提到,這樣的形式降低了應(yīng)用程序的性能。通過(guò)應(yīng)用回應(yīng)流媒體功能,應(yīng)用程序可以更快地產(chǎn)生回應(yīng),在用戶看到初始回應(yīng)時(shí),人工智能可以繼續(xù)在后臺(tái)完成處理其解答,聊天機(jī)器可以更迅速發(fā)送生成結(jié)果,如此便能夠創(chuàng)建無(wú)縫地對(duì)話流程,讓最終用戶獲得流暢的對(duì)話體驗(yàn)。
要從SageMaker截取流媒體回應(yīng),用戶需要使用新的InvokeEndpointWithResponseStream API,應(yīng)用程序?qū)⒖梢愿斓厥盏降谝粋€(gè)回應(yīng)字節(jié),用戶會(huì)明顯有感覺(jué)延遲降低,AWS提到,在人工智能應(yīng)用程序中,立即處理的價(jià)值比獲得整個(gè)完整有效負(fù)載更重要,而且更能創(chuàng)建有黏著度的對(duì)話,借由實(shí)現(xiàn)互動(dòng)的連續(xù)性創(chuàng)建更好的用戶體驗(yàn)。
包括文本和圖形形式的結(jié)果,都可以運(yùn)用流媒體式回應(yīng),也就是說(shuō)在SageMaker端點(diǎn)所托管的Falcon、Llama 2和Stable Diffusion等模型,都能夠?qū)⒛P屯普摻Y(jié)果以流媒體的形式回傳。官方深入解釋,SageMaker即時(shí)端點(diǎn)回應(yīng)流媒體是通過(guò)HTTP 1.1區(qū)塊編碼實(shí)例而成,也就是說(shuō)數(shù)據(jù)會(huì)被分成多個(gè)區(qū)塊(Chunked)傳輸,而非一次性發(fā)送整個(gè)數(shù)據(jù),服務(wù)器可以在生成內(nèi)容的同時(shí)立刻開(kāi)始傳輸,不必等待所有內(nèi)容都準(zhǔn)備好。
要使用這項(xiàng)新功能,用戶需要擁有AWS IAM(Identity and Access Management)角色賬戶,并具備管理部分解決方案資源的權(quán)限,除了網(wǎng)頁(yè)機(jī)器學(xué)習(xí)開(kāi)發(fā)環(huán)境Amazon SageMaker Studio,用戶也需要請(qǐng)求相對(duì)應(yīng)SageMaker托管執(zhí)行實(shí)例的服務(wù)配額。