ChatGPT現(xiàn)在能接受語音、圖片輸入提示,還會說話

來源:十輪網(wǎng)
作者:十輪網(wǎng)
時間:2023-09-27
3181
OpenAI周一宣布ChatGPT即將讓用戶以語音輸入指令或上傳圖片,而且終于能開口說話。

0926-chatgpr-960.jpg

OpenAI周一宣布ChatGPT即將讓用戶以語音輸入指令或上傳圖片,而且終于能開口說話。

語音、圖像識別新功能將在2周內(nèi)部署給ChatGPT Plus及Enterprise用戶,不過OpenAI表示“很快”也會推向開發(fā)人員及免費版用戶。

支持語音互動和圖片識別讓ChatGPT有更多樣應(yīng)用。用戶可以直接說出想要ChatGPT執(zhí)行的任務(wù)、聽它的答案,再和這個聊天機器人來回對話。像是要求它為家人說一個床邊故事,或是設(shè)置晚餐桌上的辯論。加上圖片識別能力則讓使用場景更為靈活,像是在旅行途中拍下知名建筑物詢問有趣故事,或是拍攝冰箱照片,讓ChatGPT建議菜單,并在邊做菜時邊向它討教做法。用戶也可以拍攝數(shù)學(xué)習(xí)題上傳ChatGPT,請它分享解題技巧給大人和小孩。

OpenAI表示,最新的語音能力是在新的語音合成(text-to-speech)模型上開發(fā),它能以數(shù)秒鐘的語音樣本及文本生成逼真的人聲。目前OpenAI提供5種人聲,每種聲音都是OpenAI和專業(yè)聲優(yōu)合作開發(fā)出來。OpenAI并使用開源語音識別系統(tǒng)Whisper將語音轉(zhuǎn)錄為文本。

而圖片識別則是以多模GPT-3.5和GPT-4為底層。這些模型將語言理解能力應(yīng)用在包含文本和圖片的段落、屏幕截圖及文件上。最新功能允許用戶上傳多幀圖片,或使用其繪圖工具引導(dǎo)ChatGPT畫一張圖。

OpenAI強調(diào),基于技術(shù)風(fēng)險,該公司選擇逐步發(fā)布這些高端功能,例如語音合成可能給了歹徒詐騙或Deepfake名人的機會,而視覺模型目前仍有對人臉幻覺,以及在重要領(lǐng)域仍依賴模型解釋圖片的問題。為此,在語音合成上,目前OpenAI僅發(fā)展語音對話,但是該公司也在實現(xiàn)其他應(yīng)用,例如Spotify以O(shè)penAI技術(shù)測試podcast的語音翻譯功能。至于圖片識別,在大規(guī)模推廣前,OpenAI已展開模型偏激性及科學(xué)能力的測試,以探詢負責(zé)任的用途。

新的視覺識別功能提供給所有平臺,包括Windows及移動版App。語音輸入功能則只部署到iOS和Android版。要使用圖片識別功能,需以App上的照片鍵拍攝或選擇圖片。iOS或Android手機版App上則需要先按“+”號。語音輸入功能方面,需用戶從App的“設(shè)置”區(qū)“新功能”下加入(opt-in)啟動語音對話。之后用戶可按下ChatGPT主頁右上方的耳機按鈕,選擇喜歡的聲音完成設(shè)置。

立即登錄,閱讀全文
原文鏈接:點擊前往 >
版權(quán)說明:本文內(nèi)容來自于十輪網(wǎng),本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權(quán),請聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼關(guān)注
獲取更多出海資訊的相關(guān)信息
優(yōu)質(zhì)服務(wù)商推薦
更多
個人VIP