ChatGPT現(xiàn)在能接受語音、圖片輸入提示，還會(huì)說話

來源：十輪網(wǎng)

作者：十輪網(wǎng)

時(shí)間：2023-09-27

OpenAI周一宣布ChatGPT即將讓用戶以語音輸入指令或上傳圖片，而且終于能開口說話。

語音、圖像識(shí)別新功能將在2周內(nèi)部署給ChatGPT Plus及Enterprise用戶，不過OpenAI表示“很快”也會(huì)推向開發(fā)人員及免費(fèi)版用戶。

支持語音互動(dòng)和圖片識(shí)別讓ChatGPT有更多樣應(yīng)用。用戶可以直接說出想要ChatGPT執(zhí)行的任務(wù)、聽它的答案，再和這個(gè)聊天機(jī)器人來回對(duì)話。像是要求它為家人說一個(gè)床邊故事，或是設(shè)置晚餐桌上的辯論。加上圖片識(shí)別能力則讓使用場(chǎng)景更為靈活，像是在旅行途中拍下知名建筑物詢問有趣故事，或是拍攝冰箱照片，讓ChatGPT建議菜單，并在邊做菜時(shí)邊向它討教做法。用戶也可以拍攝數(shù)學(xué)習(xí)題上傳ChatGPT，請(qǐng)它分享解題技巧給大人和小孩。

OpenAI表示，最新的語音能力是在新的語音合成（text-to-speech）模型上開發(fā)，它能以數(shù)秒鐘的語音樣本及文本生成逼真的人聲。目前OpenAI提供5種人聲，每種聲音都是OpenAI和專業(yè)聲優(yōu)合作開發(fā)出來。OpenAI并使用開源語音識(shí)別系統(tǒng)Whisper將語音轉(zhuǎn)錄為文本。

而圖片識(shí)別則是以多模GPT-3.5和GPT-4為底層。這些模型將語言理解能力應(yīng)用在包含文本和圖片的段落、屏幕截圖及文件上。最新功能允許用戶上傳多幀圖片，或使用其繪圖工具引導(dǎo)ChatGPT畫一張圖。

OpenAI強(qiáng)調(diào)，基于技術(shù)風(fēng)險(xiǎn)，該公司選擇逐步發(fā)布這些高端功能，例如語音合成可能給了歹徒詐騙或Deepfake名人的機(jī)會(huì)，而視覺模型目前仍有對(duì)人臉幻覺，以及在重要領(lǐng)域仍依賴模型解釋圖片的問題。為此，在語音合成上，目前OpenAI僅發(fā)展語音對(duì)話，但是該公司也在實(shí)現(xiàn)其他應(yīng)用，例如Spotify以O(shè)penAI技術(shù)測(cè)試podcast的語音翻譯功能。至于圖片識(shí)別，在大規(guī)模推廣前，OpenAI已展開模型偏激性及科學(xué)能力的測(cè)試，以探詢負(fù)責(zé)任的用途。

新的視覺識(shí)別功能提供給所有平臺(tái)，包括Windows及移動(dòng)版App。語音輸入功能則只部署到iOS和Android版。要使用圖片識(shí)別功能，需以App上的照片鍵拍攝或選擇圖片。iOS或Android手機(jī)版App上則需要先按“+”號(hào)。語音輸入功能方面，需用戶從App的“設(shè)置”區(qū)“新功能”下加入（opt-in）啟動(dòng)語音對(duì)話。之后用戶可按下ChatGPT主頁右上方的耳機(jī)按鈕，選擇喜歡的聲音完成設(shè)置。

ChatGPT

上一篇：微軟廣告與Snapchat合作，在My AI中的推廣鏈接提供支持

原文鏈接：點(diǎn)擊前往 >

版權(quán)說明：本文內(nèi)容來自于十輪網(wǎng)，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章