在2021云棲大會(huì)《產(chǎn)業(yè)視頻化創(chuàng)新與最佳實(shí)踐》視頻云主題論壇中,阿里云智能高級(jí)技術(shù)專(zhuān)家在《AliRTC開(kāi)啟視頻互動(dòng)"零處理" 時(shí)代》的主題演講中,發(fā)布了阿里云視頻云下一代實(shí)時(shí)交互解決方案—RTC“零處理”,同時(shí)分享了阿里云視頻云在RTC產(chǎn)品的探索和實(shí)踐,以下為演講內(nèi)容整理。
在過(guò)去幾年,視頻交互產(chǎn)品發(fā)生了什么變化?
我們認(rèn)為RTC產(chǎn)品對(duì)行業(yè)產(chǎn)生了兩次非常重要的變革。
第一次變革是2014年開(kāi)始的交互從圖文到音視頻的升級(jí)。
2014年,互聯(lián)網(wǎng)創(chuàng)業(yè)者與RTC產(chǎn)品供應(yīng)商一起探索視頻互動(dòng)的商業(yè)化, 教育、娛樂(lè)成為主要的突破方向, 基于全球范圍內(nèi)的互動(dòng)授課、秀場(chǎng)視頻連麥、多人交友互動(dòng),也大多在這時(shí)間點(diǎn)完成了商業(yè)與技術(shù)的成功結(jié)合。
2017年是一個(gè)標(biāo)志性的時(shí)間點(diǎn),RTC產(chǎn)品已經(jīng)幫助頭部互聯(lián)網(wǎng)客戶(hù)實(shí)現(xiàn)了顛覆性發(fā)展,標(biāo)志著互動(dòng)視頻技術(shù)與在線互動(dòng)商業(yè)模式的成熟。
接下來(lái)幾年更多的是不同體量、不同場(chǎng)景的規(guī)模復(fù)制,所以我們能看到,在2018年以及后續(xù)的幾年,市場(chǎng)上并沒(méi)有新場(chǎng)景、新互動(dòng)的創(chuàng)新,而是基于不同內(nèi)容、不同客群的業(yè)務(wù)復(fù)制, 視頻互動(dòng)從頭部走向更多的細(xì)分市場(chǎng)。
第二個(gè)重要變革發(fā)生在2020年,受疫情影響,讓云視頻會(huì)議全面滲透,讓這個(gè)時(shí)間提前了至少5年。
這次市場(chǎng)的變化,我們不能稱(chēng)之為一次技術(shù)革命,實(shí)際上對(duì)RTC產(chǎn)品并沒(méi)有新的訴求,也沒(méi)有產(chǎn)生新的互動(dòng)場(chǎng)景和技術(shù),但這次大規(guī)模的滲透,重新定義了供應(yīng)商的市場(chǎng)格局,第一次讓云廠商成為了市場(chǎng)極其重要的一部分,讓市場(chǎng)從單一的會(huì)議廠商,分裂為云平臺(tái)+ 會(huì)議終端供應(yīng)商,讓我們的客戶(hù)有了更多的選擇。
從2018年到現(xiàn)在我們沒(méi)有場(chǎng)景上的根本突破,是不是因?yàn)槲覀兊募夹g(shù)上遇到了瓶頸?
帶著這樣的問(wèn)題,阿里云對(duì)RTC場(chǎng)景技術(shù)進(jìn)行了深入的技術(shù)評(píng)測(cè),我們?cè)噲D發(fā)現(xiàn)整個(gè)行業(yè)大家的技術(shù)水位是什么樣的,不同于單項(xiàng)的視頻技術(shù),RTC的評(píng)測(cè)要更為復(fù)雜。
例如,對(duì)視頻編碼,我們可以通過(guò)PSNR,SSIM,VMAF等來(lái)分析,對(duì)于視頻分類(lèi)等視覺(jué)算法,我們可以通過(guò)ROC曲線來(lái)分析,但對(duì)視頻RTC來(lái)說(shuō),涉及的主觀感受非常多,是一件比較復(fù)雜的事情,目前業(yè)界也沒(méi)有統(tǒng)一的評(píng)測(cè)標(biāo)準(zhǔn)。
我們從這些影響用戶(hù)感受的指標(biāo)里面抽出六個(gè)維度表征RTC的表現(xiàn)質(zhì)量。
對(duì)評(píng)測(cè)感興趣的話(huà)可以關(guān)注我們的「視頻云技術(shù)」公眾號(hào),里面詳細(xì)介紹了我們?cè)趺催M(jìn)行自動(dòng)化評(píng)測(cè)的,評(píng)測(cè)過(guò)程中我們會(huì)創(chuàng)造不同的網(wǎng)絡(luò)環(huán)境,檢測(cè)RTC在各方面的表現(xiàn)。
我們對(duì)行業(yè)里的RTC做了一些評(píng)測(cè),發(fā)現(xiàn)有兩個(gè)特點(diǎn)。
第一,RTC有明顯的技術(shù)門(mén)檻,比如說(shuō)綠色的框代表一類(lèi)典型的RTC能力,由規(guī)模較小的團(tuán)隊(duì)自研,投入較小,會(huì)有明顯的差距。
第二個(gè)是幾個(gè)比較大的供應(yīng)商,包括在阿里云在內(nèi),外面這一圈,紅色的線、藍(lán)色的線,以及黃色的線,他們都處于相對(duì)比較一致的水平,但是沒(méi)有一家有特別優(yōu)秀的地方,所以技術(shù)同質(zhì)化特別嚴(yán)重,大家基本上處于同樣的水平。
我們當(dāng)前視頻的實(shí)時(shí)互動(dòng)主要集中在線上線下場(chǎng)景,未來(lái)可能會(huì)有更廣闊的應(yīng)用場(chǎng)景,比如說(shuō)一些交互場(chǎng)景,VR操控類(lèi)、虛擬現(xiàn)實(shí)類(lèi)。
這時(shí)候我們會(huì)思考一個(gè)問(wèn)題,我們的技術(shù)是不是已經(jīng)發(fā)展到了瓶頸期,我們無(wú)法滿(mǎn)足未來(lái)更廣泛的需求,這后面的原因是什么?會(huì)不會(huì)是我們的技術(shù)發(fā)展到某個(gè)瓶頸了?因?yàn)榧夹g(shù)通常是階躍式的發(fā)展,不能突破就會(huì)陷入在一個(gè)層次上。
我們希望分析一下,現(xiàn)在用戶(hù)的體驗(yàn)到底怎么樣?我們現(xiàn)在的技術(shù)存在什么問(wèn)題?
通過(guò)比較各家RTC供應(yīng)商,我們發(fā)現(xiàn)一個(gè)比較有意思的點(diǎn),就是大家有千分之二的卡頓率是難以消除的。50%、60%的丟包都可以做的很好,但是如果網(wǎng)絡(luò)帶寬受限,千分之二的卡頓就難以消除了。
我們有一些手段可以解決類(lèi)似的問(wèn)題,比如利用窄帶高清技術(shù),我們可以通過(guò)復(fù)雜計(jì)算解決這些問(wèn)題,也可以通過(guò)非標(biāo)屏幕編碼類(lèi)技術(shù)解決,但是實(shí)際上我們很難把這些技術(shù)進(jìn)行非常廣泛的利用。
最根本的原因是我們會(huì)發(fā)現(xiàn)端側(cè)能力是有限制的,大家的手機(jī)各不相同,有可能有些人的手機(jī)特別好,可以做復(fù)雜算法,有些人手機(jī)差,無(wú)法進(jìn)行復(fù)雜算法,同時(shí),端的碎片化比較嚴(yán)重,要對(duì)所有端適配是比較困難的。
在應(yīng)用上我們希望能夠提供更有趣的交互,比如說(shuō)實(shí)時(shí)生成卡通人物形象,這在端上可以運(yùn)行,但是只有少數(shù)非常強(qiáng)大的設(shè)備才能運(yùn)行。
一個(gè)自然的想法是,我們是不是能突破當(dāng)前的應(yīng)用架構(gòu)?
我們把一個(gè)完全依賴(lài)端能力的架構(gòu),逐步轉(zhuǎn)變成依靠云和端一起配合進(jìn)行視頻傳輸處理的架構(gòu),基于這個(gè)想法我們提出了云處理+端渲染技術(shù),目的是希望從云上提供強(qiáng)大的處理能力,端上負(fù)責(zé)渲染,只需要提供很少的處理能力就能完成比較好的處理效果,使大家在不同的手機(jī)上都能得到一樣的體驗(yàn)。
這就是視頻云“零處理”解決方案的基本架構(gòu)圖,在端上只需要進(jìn)行比較簡(jiǎn)單的視頻采集以及視頻傳輸,然后通過(guò)我們構(gòu)建的覆蓋全球的GRTN網(wǎng)絡(luò)到達(dá)云端,云端使用GRTP的云端實(shí)時(shí)處理引擎對(duì)視頻進(jìn)行處理,再把處理好的視頻傳到端上,端上只需要做簡(jiǎn)單的呈現(xiàn)。這樣可以很好的解決剛才提到端計(jì)算能力不夠和碎片化的問(wèn)題。
但是天下沒(méi)有免費(fèi)的午餐,采用上面的架構(gòu),很容易發(fā)現(xiàn)幾個(gè)問(wèn)題。
第一,我們的云上是不是能承受這么大規(guī)模的處理。
第二,云上能不能承擔(dān)這么大規(guī)模的成本。
第三,云上能不能持續(xù)提供這么多類(lèi)型的處理服務(wù)。
我們自己的信心來(lái)自于幾個(gè)方面。
第一,通過(guò)阿里多年的積累,我們積累了業(yè)界最大規(guī)模的云上視頻處理集群,所以我們?cè)诩夹g(shù)上已經(jīng)具備承擔(dān)超大規(guī)模處理的能力。
第二,關(guān)于成本。
下圖是我們處理的一張業(yè)務(wù)圖的示例圖,橫坐標(biāo)是時(shí)間,縱坐標(biāo)是資源使用量,黑色的線一種業(yè)務(wù),紅色線是另一種業(yè)務(wù),可以看到,每種業(yè)務(wù)都存在大量的業(yè)務(wù)空閑期,業(yè)務(wù)空閑期可以讓我們有大量資源供我們復(fù)用,當(dāng)我們把多種業(yè)務(wù)混跑時(shí),就能把資源利用起來(lái),大幅度降低成本。
除了在時(shí)間上的混跑,我們也可以通過(guò)空間上的混跑和異構(gòu)的混跑,將整體的成本降下來(lái)。
第三,由于我們背靠阿里集團(tuán),包括我們自己也有很多視頻算法處理積累,所以我們有機(jī)會(huì)持續(xù)不斷的提供豐富的算法和處理能力。
三、“零處理”實(shí)踐分享
接下來(lái)是阿里云視頻云在零處理的實(shí)踐。
第一個(gè)場(chǎng)景是使用MCU解放端側(cè)算力。
通常情況下,我們做RTC直播時(shí),觀眾看到的直播畫(huà)面是通過(guò)RTMP協(xié)議來(lái)完成的,這種情況下由于延遲的原因觀眾是無(wú)法參與到直播互動(dòng)的。要增強(qiáng)觀眾的互動(dòng)性,需要大家都加入RTC網(wǎng)絡(luò),每個(gè)端訂閱多個(gè)流對(duì)端的算力和網(wǎng)絡(luò)流量都是非常大的負(fù)擔(dān)。
我們通過(guò)云端的MCU把流合并,重新進(jìn)入到RTC會(huì)議里,這樣觀眾可以通過(guò)RTC方式看到直播流,非常方便進(jìn)行互動(dòng),同時(shí)也無(wú)需消耗過(guò)多的端上資源。這種模式我們稱(chēng)為互動(dòng)低延時(shí)模式,已經(jīng)是我們一個(gè)成熟的產(chǎn)品能力。
第二個(gè)場(chǎng)景,云轉(zhuǎn)推。
這是一個(gè)我們打通阿里內(nèi)部服務(wù)能力的例子,我們通過(guò)和阿里集團(tuán)安全部的合作,將RTC的流通過(guò)內(nèi)網(wǎng)和安全部的產(chǎn)品打通,減少了中間環(huán)節(jié),實(shí)現(xiàn)低成本、低延遲的內(nèi)容審核。
第三個(gè)場(chǎng)景,云特效。
相信這個(gè)場(chǎng)景大家已經(jīng)看過(guò),利用云端的處理,我們實(shí)現(xiàn)了虛擬會(huì)議室,通過(guò)云端的MCU將所有人進(jìn)行摳圖+貼圖,來(lái)提升視頻會(huì)議時(shí)的參會(huì)體驗(yàn),這是阿里內(nèi)部開(kāi)會(huì)時(shí)已經(jīng)可以運(yùn)用到、并看到的技術(shù)。
上面展示的實(shí)時(shí)虛擬形象,是依托GRTN實(shí)時(shí)傳輸網(wǎng)絡(luò),將視頻流傳輸?shù)皆贫?,云端?duì)視頻進(jìn)行摳圖,變聲,卡通化等復(fù)雜的AI處理,終端只負(fù)責(zé)展示,從而實(shí)現(xiàn)了端側(cè)零處理。
“零處理“作為下一代實(shí)時(shí)交互解決方案,在云廠商中率先推出,解決了新交互時(shí)代因端側(cè)算力受限而無(wú)法實(shí)現(xiàn)的虛擬交互場(chǎng)景難題,充分利用云端一體的超精細(xì)算力,以云特效構(gòu)建實(shí)時(shí)虛擬場(chǎng)景,是全面打開(kāi)沉浸交互新世界的一項(xiàng)重要演進(jìn)。