海外語聊房通話時長提升5%的背后
AI降噪送出極致助攻
在社交出海的大潮中,語聊房一直是最熱門的社交場景之一,盡管社交玩法一直在迭代創(chuàng)新,但經(jīng)典的語聊房場景憑借互動性強、聊天話題廣、陌生人社交等屬性備受國內(nèi)外用戶的喜愛。在海外市場,Yalla、Clubhouse、Uplive、Mico等都已是人們熟知的語聊房平臺。
但在海外市場開疆拓域,其實并沒有想的那么簡單。相比國內(nèi)成熟的網(wǎng)絡條件、設備性能,海外地區(qū)普遍存在網(wǎng)絡條件差、設備參差不齊等情況,嚴重影響語聊房中的用戶互動體驗,也對APP廠商出海帶來了嚴峻的技術(shù)挑戰(zhàn)。
海外語聊房音頻質(zhì)量面臨痛點
開播環(huán)境差、網(wǎng)絡條件差、設備參差不齊
1、語聊房場景需要頻繁的開麥互動,但海外地區(qū)用戶的開播環(huán)境普遍不好,例如東南亞、南美等地區(qū),環(huán)境噪聲較大,通過傳統(tǒng)降噪技術(shù)往往無法有效消除復雜的噪音,特別是在唱歌互動的場景,降噪算法可能會抑制唱歌的尾音,嚴重影響演唱效果,影響用戶體驗。
2、海外運營商數(shù)量多且類型復雜,各地區(qū)網(wǎng)絡條件參差不齊,例如東南亞諸多島國尤為明顯、OpenSignal的一份報告就發(fā)現(xiàn),新加坡的移動數(shù)據(jù)下載速度最快,為47.5 Mbps,而速度第二的越南連新加坡一半都不到,才到20.6 Mbps,馬來西亞、印度尼西亞、泰國、菲律賓則更低。在印尼,市場上就有6個主流的運營商,而當?shù)剡€有大量3G、4G的用戶,網(wǎng)絡環(huán)境更加復雜,幾乎很難順暢地進行跨國跨地區(qū)群聊。
3、海外用戶設備和國內(nèi)差別較大,尤其是第三世界國家設備類型復雜且低端機覆蓋很大,來自聲網(wǎng)《實時萬象》的數(shù)據(jù)顯示,印度、中東、南美地區(qū)使用RTC應用的低端機占比高,均超過30%,南美為45.8%,接近中國大陸(23.9%)的2倍。想要把用戶體驗做到最好,就需要兼顧到產(chǎn)品在不同機型上的運行狀況,因此設備適配是每個出海產(chǎn)品都要投入大量資源來解決的問題。
針對以上海外音頻場景中的用戶體驗痛點,聲網(wǎng)通過鳳鳴AI引擎、全球化服務部署以及弱網(wǎng)對抗策略、復雜機型適配等技術(shù)能力,可以對音頻質(zhì)量的提升實現(xiàn)多重優(yōu)化,帶來極致的高音質(zhì)音頻體驗。據(jù)悉,某東南亞頭部語音社交應用在線上虛擬社交場景中使用聲網(wǎng)鳳鳴·AI降噪后,通話時長增加了5%。
鳳鳴AI引擎
支持100+非穩(wěn)態(tài)噪聲消除兼顧語音高保真
相比傳統(tǒng)的降噪算法,聲網(wǎng)鳳鳴AI引擎的AI降噪算法在降噪效果上有巨大提升,傳統(tǒng)降噪算法在處理穩(wěn)態(tài)噪聲時效果較好,在處理非穩(wěn)態(tài)噪聲時,降噪效果會有明顯回退,穩(wěn)態(tài)噪聲一般指噪聲聲壓級的變化較小,且不隨時間有大幅度的變化,如電機聲、固定轉(zhuǎn)速的摩擦、轉(zhuǎn)動等噪聲。非穩(wěn)態(tài)噪聲指噪聲強度隨時間而有起伏波動,有的呈周期性噪聲,如錘擊,有的呈無規(guī)律的起伏噪聲,如交通噪聲、小孩哭叫等。聲網(wǎng)自研的AI降噪算法可以支持實時互動中100+非穩(wěn)態(tài)噪聲消除,降噪效果實現(xiàn)了巨大提升。
同時,針對語聊房、直播等場景下用戶會外放唱歌的情況,聲網(wǎng)也進一步優(yōu)化了唱歌場景下的AI降噪模型,并提供48khz的高音質(zhì)降噪算法,一方面可有效避免降噪算法抑制唱歌的尾音,保障演唱效果,另一方面還可以消除插拔耳機等操作引入的電流音噪聲。我們可以通過下方的對比音頻可以更直觀的體驗電流音噪聲的消除效果。
降噪會導致聲音失真,是大家常常會擔心的問題。聲網(wǎng)AI降噪在強降噪的同時還能兼顧高保真,即使在語聊房多人同時說話的場景下,也可以做到在抑制噪聲的同時不對說話人語音產(chǎn)生損傷,使每個人的聲音都聽得清晰。同時,還實現(xiàn)了在不增加額外運算量的前提下,對遠場語音具有明顯的混響抑制能力。當一位用戶在房間里離麥克風比較遠的時候,也依然可以使對端聽到清晰的聲音,而不是模糊的聲音。
聲網(wǎng)AI降噪算法相比傳統(tǒng)降噪算法,計算復雜度都要高很多,對此一些選擇在東南亞、南美等低端機覆蓋率高地區(qū)的出海企業(yè)也會擔心,既要享受AI算法帶來的良好效果體驗,又要有媲美傳統(tǒng)算法的性能,真的能做到兩全其美么?答案就是聲網(wǎng)自研的AI推理引擎,通過計算圖優(yōu)化等一系列優(yōu)化加速技術(shù),在保障降噪算法精度的同時,可以使得AI降噪算法在Android、iOS、Mac、Windows、Web等主流平臺以低精度損傷、高性能、低功耗方式運行,使海外很多地區(qū)用戶的低端機設備不卡不燙,幫助出海企業(yè)解決后顧之憂。
全球化部署與弱網(wǎng)對抗
保障流暢的互動體驗
海外復雜的網(wǎng)絡環(huán)境會造成實時互動中的卡頓、延時高等糟糕體驗,這也是困擾很多出海企業(yè)的重要因素。聲網(wǎng)憑借在出海市場的多年沉淀與打磨,具備全球化服務部署的能力。在海外底層網(wǎng)絡優(yōu)化方面,聲網(wǎng)一方面使用網(wǎng)絡覆蓋質(zhì)量評價標準來指導建設全球邊緣基礎資源、提高網(wǎng)絡覆蓋,調(diào)整接入策略,優(yōu)化關鍵性指標,提升用戶體驗。另一方面,聲網(wǎng)還擁有完善的全球供應商管理體系,采用公有云、私有云等多種資源,覆蓋200+國家和地區(qū),特別針對東南亞、中東、北美和國內(nèi)中小城市、小運營商做網(wǎng)絡優(yōu)化。
以印度地區(qū)為例,印度地域遼闊,有28個邦,數(shù)字消費人口規(guī)模世界第二,僅次于中國。但印度的通信基礎設施短板卻較為明顯,印度擁有數(shù)百家網(wǎng)絡運營商,網(wǎng)絡關系錯綜復雜,具有基站數(shù)量不足、頻帶有限、數(shù)據(jù)容量不足等問題,導致用戶的網(wǎng)絡體驗不佳。為了保證用戶接入能夠做到低延遲、低抖動、降低端到端延遲,聲網(wǎng)在各個邦采用不同的網(wǎng)絡運營商資源進行測試,得出用于覆蓋不同邦最優(yōu)的接入網(wǎng)絡運營商資源,通過最佳覆蓋點和最佳網(wǎng)絡運營商組合的模式在當?shù)亟⒘硕鄠€覆蓋節(jié)點,提升了印度地區(qū)的用戶體驗。
面對海外地區(qū)普遍存在的弱網(wǎng)環(huán)境,很多出海企業(yè)往往束手無策,對此,聲網(wǎng)擁有一套抗弱網(wǎng)傳輸與抗丟包算法,結(jié)合網(wǎng)絡探測(如延時估計、帶寬估計等)、抗丟包技術(shù)、自適應jitter buffer、網(wǎng)絡擁塞控制策略等,可以實現(xiàn)80%丟包情況下,依然能保障音視頻通話流暢,為用戶在各種網(wǎng)絡環(huán)境下提供流暢的互動體驗。
對于欠發(fā)達地區(qū)參差不齊的設備狀況,在與眾多出海客戶的多年實踐與打磨中,聲網(wǎng)已經(jīng)可以支持適配30000+終端機型,例如One Plus 3T、Samsung Galaxy A10s、Redmi Note7 Pro等在某地區(qū)還依然流行的特殊老舊機型,為每位用戶帶來流暢絲滑的體驗。
鳳鳴·空間音頻帶來沉浸式音頻體驗
伴隨元宇宙、AIGC等技術(shù)的發(fā)展,在語聊房等社交場景加入沉浸式的音頻效果也成為一種趨勢,海外市場亦是如此。聲網(wǎng)鳳鳴AI引擎同樣具備空間音頻的技術(shù)能力,通過純軟件算法方案,模擬頭部球面區(qū)域立體聲場,利用范圍音頻、人聲模糊、空氣衰減模擬等能力,完美模擬現(xiàn)實聽覺感受。當用戶操作相應角色在虛擬場景里移動,可以實現(xiàn)根據(jù)虛擬人物的面部朝向、音源朝向、遠近距離與上下高度,呈現(xiàn)不同聲音效果。
以范圍音頻為例,在空間聽覺的研究和實現(xiàn)中,頭部相關聯(lián)的傳遞函數(shù)(HRTF)(Head Related Transfer Functions)與頭部相關聯(lián)的沖激響應(HRIR)占有十分重要的地位。而聲網(wǎng)基于HRTF頭相關傳遞函數(shù)、心理感知聲學、聲源指向模擬等算法自研了一整套3D聲場渲染引擎??梢詣討B(tài)模擬空間中任意角度、朝向的聲音在傳遞到左右耳時聲音發(fā)生的變化從而實現(xiàn)了高精度的聲音方位渲染。并且為了追求極致的聽感與極致的可用性,渲染引擎以極小的算力要求,支持48kHz全頻帶、多路音頻渲染,讓你在移動端不多費流量、不用擔心算力也能暢享多人高清音質(zhì)互動。
音源的朝向?qū)ξ覀兊穆犛X也會有直接的影響,例如一個人背對著你說話相比正對著你說話聲音會顯得比較“悶”,因為背對著你說話時聲音需要繞過身體這個障礙,不同頻率的聲波繞過障礙物時的能量衰減程度不同。聲網(wǎng)3D空間音效還提供音源朝向功能,通過聲學建模的方式可以模擬任意角度的音源方向帶來的音色差異,最終通過模擬不同音源的位置與朝向,實現(xiàn)音量、音色的差異,從而完美模擬現(xiàn)實聽覺的感受。
此外,人在真實環(huán)境中對上下、前后這兩個方向的感知是比較模糊。這是因為人的耳朵基本上是對稱的,相比水平方向,在垂直方向上左右耳聲音的音量、延遲基本相同就不足以用來區(qū)分方向了。所以在虛擬空間中,聲網(wǎng)還對這些方向的聽感區(qū)分做了增強,讓用戶在“虛擬空間”中可以擁有超越現(xiàn)實的聽音辨位能力。