Google宣布在BigQuery中預覽Vertex AI語音轉文本模型,這項新功能可讓用戶更簡單地轉錄語音文件,并將其與其他結構化數(shù)據(jù)結合,整合分析并構建創(chuàng)新人工智能用例。這項功能更新使得用戶得以通過SQL根據(jù)數(shù)據(jù)微調轉錄模型,在BigQuery中執(zhí)行語音轉文本工作。
過去Google云計算用戶要轉錄語音數(shù)據(jù),需要自己創(chuàng)建獨立的人工智能工作管線,這些工作管線并沒有與BigQuery直接集成,客戶需要編寫自定義基礎設施,再將轉錄的數(shù)據(jù)傳輸?shù)紹igQuery進行分析。而新的Google的語音轉文本V2 API提供多功能轉錄服務,用戶可以針對不同類型的語音音頻,像是客服通話或醫(yī)療錄音,選擇合適的專門模型。此外,模型也可以根據(jù)用戶的數(shù)據(jù)進行調整,以提高轉錄準確性。
在BigQuery中,用戶可以創(chuàng)建對象表格,這些表格和Cloud Storage中的語音文件相關聯(lián),如此便能夠提供高精細度的訪問控制,允許管理員設置列級的訪問政策強化數(shù)據(jù)安全。當要進行轉錄時,用戶需要在BigQuery中注冊現(xiàn)成或是經(jīng)微調的轉錄模型,并使用SQL通過對象表格調用激活,轉錄結果會以BigQuery表格的文本字段回傳。
當語音轉換成為文本之后,用戶有三種方式可以對文本數(shù)據(jù)進行分析,第一是使用BigQuery ML進行自然語言處理,像是識別客戶支持通話中的情緒或是產品反饋分類,第二種則是將轉錄的元數(shù)據(jù)和存儲在BigQuery表格中的其他結構數(shù)據(jù)進行集成分析,例如識別出在通話中表現(xiàn)出負面情緒,但是高終身價值的客戶,或是從客戶反饋中篩選出最受歡迎的產品特性,第三種則是從BigQuery調用語言模型PaLM API,執(zhí)行摘要、分類,以及針對轉錄的文本進行問答等操作。