這幾年 AI 發(fā)展和進化的速度,幾乎可以用三個字來形容:殺瘋了。
AI 下棋、AI 編程、AI 作畫、AI 寫小說、AI 預(yù)測蛋白質(zhì)結(jié)構(gòu)……當 AI 逐漸融入我們的生活,你是否設(shè)想過,我們的未來會如何發(fā)展?會像許多科幻電影和賽博朋克類小說中說的那樣,讓 AI 管理和安排我們的日常?
正如未來學(xué)家尼葛洛龐帝所說,“預(yù)測未來的最好方法,就是去創(chuàng)造未來”,最近國外一位小哥 RoberDam 便提前“體驗”了一把他眼中的未來:“我 24 小時都用音頻記錄自己,然后用 AI 來處理這些信息——這會是未來嗎?”
恰好出現(xiàn)的 Whisper
說來有些好笑,RoberDam 會對這個測試提起興趣的原因之一,是 1TB 內(nèi)存手機的出現(xiàn):“迄今為止已經(jīng)有多種型號的智能手機都具有 1TB 的內(nèi)存,這能干什么呢?能全天候地記錄自己的音頻!”
恰好今年 9 月底,OpenAI 又發(fā)布了一個名為 Whisper 的語言 AI 模型,并聲稱它在英語語音識別方面的準確性已接近人類水平——RoberDam 靈光一閃,齊活兒!
“當然,這只是一個預(yù)測未來的實驗,就是想看看什么可能、什么不可能?!?/p>
首先,RoberDam 買了幾個麥克風帶在身上,整天開著,記錄他一天說的話。計劃當一天結(jié)束后,他就把這些音頻交由 OpenAI 的 Whisper 處理,轉(zhuǎn)化為文本文件,從中提取信息。
不過,畢竟每天說的話太多,RoberDam 認為還是有必要畫個重點的。因此,他創(chuàng)建了一個初級的“數(shù)字助理”程序,將一些重要信息通過關(guān)鍵詞“Robert”和“End Robert”主動讓其捕捉:“每次我說出‘Robert’這個詞時,表明我之后所說的一切都是我對助手的命令,直到我再次說‘End Robert’,意味著命令結(jié)束?!?/p>
舉兩個例子:
想讓“數(shù)字助理”記錄當天的體重,RoberDam 只需大聲說:“Robert WEIGHT 60.1 end Robert?!?/p>
想讓“數(shù)字助理”記錄當天的睡眠時間,RoberDam 也只需說:“Robert SLEEP 7 hours 14 minutes end Robert。”
等一天結(jié)束,Whisper 將當天的音頻處理并轉(zhuǎn)換為文本后,“數(shù)字助理”程序就會負責搜索命令的文本并提取關(guān)鍵詞之間的所有內(nèi)容。
足以確保 100% 的隱私,還等同于“模擬 API”
說到這里,可能有些人會覺得,何必如此麻煩搞個“數(shù)字助理”,直接用 Google 的“OK GOOGLE”和蘋果的“Siri”不香嗎?
以“OK GOOGLE”為例,RoberDam 總結(jié)了三點局限:
命令受限:不夠了解“OK Google”可以交互式地做什么,對它的一些命令只會作為 Google 搜索返回。
不夠隱私:你對“OK Google”說的命令和完整音頻文件都會一起保存在 Google 中,搜索歷史記錄就能查到。你不僅能聽到自己的聲音,旁邊人的對話可能也會被錄進去。
同步處理:當你向 Google 發(fā)送命令時,通常會有幾秒的延遲,可能用于搜索也可能在辨別你的命令,而這會分散你的注意力,讓你關(guān)注它的反饋,有時候這比你直接手動操作還慢。
基于這三點,RoberDam 自己創(chuàng)建的“數(shù)字助理”就很好地解決了這些問題:
命令受限:命令由 RoberDam 自己決定,他知道“數(shù)字助理”能處理什么。
不夠隱私:所有音頻只有 RoberDam 一人擁有,確保 100% 隱私。
同步處理:它是異步處理的,所以 RoberDam 不用費心盯著它有沒有及時響應(yīng),想到了就說出命令,一天結(jié)束后它會自己處理。
另外值得一提的是,這個“數(shù)字助理”某種程度上來說等同于一個“模擬 API”——一些電子設(shè)備原本只能與手機連接,但現(xiàn)在 RoberDam 通過將音頻交由“數(shù)字助理”處理,間接實現(xiàn)了多個設(shè)備之間的通信。
目前還存在一些弊端
總之,某一天 RoberDam 終于克服了羞恥心,時不時就對著麥克風喊著:“Robert……end Robert”,最終他明確向“數(shù)字助理”說的所有信息都可以集中在日??刂泼姘逯校?/p>
不僅如此,RoberDam 表示,為了進一步了解當天的日程,還可以創(chuàng)建“我的日記”以生成當天所做事情的摘要:
不過,RoberDam 也承認,這種 AI 處理方式還存在一些弊端。例如:現(xiàn)階段的“數(shù)字助理”并不會提醒他當天必須要做的事情;由于是異步處理的,只有到晚上才知道那些命令有沒有被成功處理;還有在別人眼里,他的“自言自語”可能有點奇怪。