阿里云視頻云全景創(chuàng)新峰會的360度想象

來源：搜狐

作者：砍柴網(wǎng)

時間：2021-07-15

當人類優(yōu)渥于一種狀態(tài),總有想象力沖破平衡。

1905年,愛因斯坦否定了絕對時空,引發(fā)物理世界三大革命。楊振寧曾說過,“愛因斯坦沒有錯失重點,是因為他對時空有著更自由的眼光。而要有自由的眼光,必須能夠同時近觀和遠觀同一課題?！?/p>

2021,阿里云視頻云全景創(chuàng)新峰會,努力嘗試站在近景和遠景之處,全景觀察這個時代的超視頻化課題。

這是個怎樣的時代?

這是超視頻化時代。

視頻讓流淌的文字和圖像演化成時代語言,視頻把情緒、立場、眼界、思維立體化封裝。視頻在時間域和空間域,不斷地破維和延伸。

視頻化是一場博物學,包羅文字、影音,包羅空間、引力,包羅人文、情感,它呈現(xiàn)沒有邊界的世界圖景,它表達自由和創(chuàng)造新自由。

在超視頻化時代,視頻衍生了更多新形態(tài),構建了全新的內(nèi)容鏈條,所謂超內(nèi)容;視頻化逐漸演變成以人為中心的交互,承載了多維感官、甚至超越時空的體驗,所謂超交互;視頻化讓萬物皆媒,人與人、人與物、人與自然,感應式鏈接,產(chǎn)生一種超社交能力和現(xiàn)象,所謂超鏈接。

視頻成為全新的時代語言,視頻化成為新世紀的新文化運動;而超未來的另一端,現(xiàn)實世界與虛擬世界的物理感知界限將模糊化,最終實現(xiàn)全場景的數(shù)字孿生。

當然,5G是這個時代演進的助推器,讓萬物互聯(lián)。而“云+視頻“是場景革新的催化劑,讓虛實融合。

隨之,一切內(nèi)容和交互,都將在這個時代發(fā)生聚變。

內(nèi)容和交互的盡頭在哪?

先談內(nèi)容。

技術,各式各樣的技術,首先是在呈現(xiàn)一個意義的世界。

技術制造意義并傳遞情感。是這樣的,就像當帶寬承載有限時,人們聚焦信息的傳遞;當帶寬承載高增時,人們通過多維形態(tài)信息傳遞的,是情感。喬布斯在2001年的訪談中,已經(jīng)開始期望通過互聯(lián)網(wǎng)更多來傳遞情感,今天,視頻云的技術可以實現(xiàn)。

如果技術助力內(nèi)容傳遞情感,那回顧內(nèi)容的演進,可以看到清晰的脈絡:從一行文字、一幅畫、到一部影像,一直發(fā)展到今天的直播、短視頻滿溢,再到資訊和知識的視頻化呈現(xiàn),直至全場景內(nèi)容的逐漸視頻化,最終演變到以三維化、可交互為主的沉浸式內(nèi)容形態(tài)。而在這一演進過程中,凸顯了更大密度、更多維度、更多感官、拓撲空間的生長力。

如今,我們能提前預感到沉浸式的學習場域,通過5G、XR、全息投影、數(shù)字孿生和云化網(wǎng)絡等技術的充分融合,將抽象的知識可視化、具象化,打造線上線下無邊界課堂。能把閱讀新聞演化成體驗“空間新聞“,利用有限虛擬、超高清技術、3D和 360 全景技術,讓人獲得置身感與參與感,使新聞行業(yè)面臨極大顛覆。更常見的是沉浸式文博,以文旅IP結合虛擬/增強現(xiàn)實、全息投影、智能交互,形成萬物沉浸、互動敘事的產(chǎn)業(yè)雛形。

在國外,沉浸式演唱會將搬上舞臺,索尼與Verizon合作,將于今年冬天推出”麥迪遜·比爾沉浸式VR演唱會“。據(jù)說該體驗結合3D動捕、容積捕捉和3D重建技術,利用游戲引擎開發(fā)而成。同時,松下也宣布和Illuminariums娛樂公司合作打造了一個大型沉浸式娛樂中心,場內(nèi)內(nèi)置46臺4K投影,結合LiDAR傳感器進行交互,還將融合空間音頻,具備高度定制化。

仔細品味,沉浸式內(nèi)容的形態(tài)無限想象。在內(nèi)容形態(tài)中,我們能縱覽到從實體沉浸、虛擬沉浸、虛擬混合沉浸,再到泛在智能沉浸的線性生長路線,而盡頭的內(nèi)容形態(tài)將會通過全域交互的形式重構體驗,帶來千人千面的獨特內(nèi)容。

再看交互。

《科學的歷程》中提到,“近代思想的一個革命性的變化,就在于從有限封閉的世界走向無限的宇宙。“ 仔細反觀交互的推演,也正是如此。

從線下到線上,一切場景都在試圖騰挪空間,創(chuàng)造無界?；诳萍己蜕虡I(yè)的推動,人們的交互在慢慢轉向全場景線上化,而最終的形態(tài)也將是沉浸式的交互關系。不難發(fā)現(xiàn),多端鏈接、多人共享、打破空間、虛實無縫結合,正是這一演進的趨向。而在能看到的終點,人機交互、腦機接口都是探索重點。

如果縱覽交互發(fā)展的60年,可以分成三個主要發(fā)展時代,而未來十年將核心聚焦在人機交互、傳感器、在線社交通信、腦機接口和特征識別。

資料來源:International Journal of Human–Computer Interaction《Mapping Human–Computer Interaction Research Themes and Trends from Its Existence to Today: A Topic Modeling-Based Review of past 60 Years》

從交互的視角,信息將從一個交互對象自然地傳遞到另一個交互對象,而數(shù)字將與物理共存并增強。從學術上,交互可分為:物理和數(shù)字連續(xù)體的交互、隱式交互、感官環(huán)境與感知交互、公共空間的交互,虛擬現(xiàn)實與增強現(xiàn)實交互。而這終極的沉浸式交互,核心在探索更自然的交互方式,希望釋放人的立體視覺、觸覺、本體感知等能力,讓交互不再局限于二維視覺通道與視覺反饋。

在新交互體察上,最新的2021CES給我們展示了Pollen Robotics的遠程VR操控方案、CareOS的智能鏡AR美容美發(fā)系統(tǒng),還有全息技術公司IKIN公布的全息配件,可將智能手機或電腦屏幕變成裸眼3D效果。當然還有Fackbook一直布局的VR社交,試圖在虛擬世界中,嘗試另一種人生。

日前三星公司發(fā)布的《6G時代遠景報告》曾提到,高度沉浸XR與高質(zhì)量移動式全息體驗,將是10年后的普遍場景。

內(nèi)容和交互的盡頭大概就是沉浸式場域的綜合體,而智能化已經(jīng)讓我們逐步“浸入”到了一個虛實融合的泛沉浸式時代。它不是未來,它正在發(fā)生。

生態(tài)的供給與AI的拿捏

從未來和時代演進穿越回來,放平視線,落在現(xiàn)有內(nèi)容生態(tài)和技術支持層面。

深入視頻化趨勢,來看視頻內(nèi)容全圖譜視角,整個產(chǎn)業(yè)鏈涵蓋了內(nèi)容生產(chǎn)、營銷傳播、分發(fā)平臺、播放終端以及技術支持,而云計算、音視頻技術強力支撐了視頻內(nèi)容全產(chǎn)業(yè)鏈發(fā)展。

在新的視頻文化消費驅動下,新的技術在演進、在應用,新的生產(chǎn)方式和內(nèi)容形態(tài)在誕生。

我們知道,視頻的新文化消費的擴需,一方面需要數(shù)字化的短視頻供應系統(tǒng),一方面需要超高清視頻的生產(chǎn)能力,從而把大眾帶入數(shù)字化內(nèi)容浪潮中、帶入到真正的8K時代。

超高清視頻是視頻技術繼模擬、標清、高清后的新一輪代際演進,與5G、人工智能等同為當今新一代信息技術的重要發(fā)展方向。而當前內(nèi)容生產(chǎn)處于超高清生產(chǎn)最短板,內(nèi)容服務層的推進發(fā)展對超高清商用落地起到?jīng)Q定性作用。

AI在這當中可以發(fā)揮關鍵價值,我們可以這樣思考,把視覺理解成生物和物理兩個層面,生物世界是人的視覺感知,而從物理現(xiàn)象是對光的各種感應,包括光的亮度、細節(jié)描述,以及與時間相關的信息。

對此, AI發(fā)揮的作用主要分成兩部分,第一也是最基礎的,是對于視頻或者圖像的理解,包括我們常見的分類、打標、檢測、分割等等這些,這也是跟人相關的,因為人一開始是先理解世界的。第二是與生產(chǎn)相關的,比如我們生產(chǎn)、編輯、加工、擦除、擦入等等,還有與底層視覺相關的,就是增強相關,而怎么能夠在底層視覺上對視頻用AI技術賦能,也是其中關鍵。

從AI賦予的超高清能力來講,對于視覺,一個非常重要的結果就是全新的視聽體驗,而體驗與很多東西相關。第一是更豐富的細節(jié),比如看一個東西,如果分辨率非常低或本身信息量體驗非常差的東西,怎么豐富細節(jié),尤其在8K即將到來的今天。第二個是更生動的色彩,在色深、色域、亮度層面,這也是體驗非常重要的地方。第三是更沉浸式的體驗,所謂大視角、全景視角、立體聲環(huán)繞。此外還要包括在各行各業(yè)更廣泛的應用。

AI驅動高清往前走,智能是最基本的,而能不能在不同場景自適應去做事情,AI技術并沒有所謂的普適性的能力,所以在卡通、新聞人物、傳記不同場景中,能夠有很好的系統(tǒng),而不是單一的模型、萬能的模型去處理,所以能夠自適應的針對不同場景采用最優(yōu)質(zhì)的算法,這是很重要的。由此,自適應、高質(zhì)量、自評估的智能化AI技術驅動,正是達摩院著力的關鍵。

在超高清之外,AI對超內(nèi)容消費的效率提升,也在強力賦能。

當前用戶碎片化消費時間不斷增加,短視頻的消費用戶規(guī)模已超7.73億人,短視頻的市場規(guī)模超過2000億元。但我們都了解,在內(nèi)容供給側,制作一個較高水準的視頻面臨著創(chuàng)意生產(chǎn)困難、工具實現(xiàn)困難的問題,高效的規(guī)?；a(chǎn)出則更加困難。就此,阿里大文娛Media AI平臺通過AI研發(fā)可以實現(xiàn)五大功能:動態(tài)素材提取、模版視頻生產(chǎn)、智能剪輯技術、智能素材加工、互動特效。

結合自身業(yè)務特點,大文娛希望能夠在平臺側,提效率促分發(fā),為行業(yè)創(chuàng)造更多更好的產(chǎn)品和工具;在消費側為用戶提供更多的新消費形態(tài)和視頻的消費互動新體驗;在行業(yè)側,能與更多B端的PGC或者MCN進行合作。

如今,基于技術和生態(tài)的聯(lián)動,阿里云視頻云也正將整個媒體生產(chǎn)的模式提升到一個新的時代——云端一體的智能生產(chǎn)架構。這一架構包含了內(nèi)容創(chuàng)意、素材管理、剪輯包裝、渲染與合成四大核心環(huán)節(jié),具有云導播、云剪輯、AI處理生產(chǎn)等豐富的功能。因此,在云端一體的架構和AI能力的加持下,傳媒行業(yè)的內(nèi)容生產(chǎn)將會賦予更多可能性。這種生產(chǎn)化的模式將會極大地重塑內(nèi)容行業(yè),讓真正的內(nèi)容創(chuàng)作者從繁復的重復化勞動中釋放出來,創(chuàng)造出更豐富的內(nèi)容、形態(tài)、模式。

視頻力改變了商業(yè)邏輯

時代的演進、技術的加持、生態(tài)的聯(lián)動,更多是降落在商業(yè)落點上。

以往,講互聯(lián)網(wǎng)整體的價值的時候,常規(guī)去用的就是流量價值,從移動端來講最簡單就是在每個月、每周覆蓋多少設備,但現(xiàn)在我們要用時間數(shù)來看。在短短3年之內(nèi)用戶在整個視頻細分產(chǎn)品的花費時間,從一萬六千億分鐘變成四萬八千億分鐘。數(shù)字是驚人的。

面對現(xiàn)象背后的巨大商業(yè)空間,該怎么配合驅動和創(chuàng)新更多,是我們必須思考的。

我們在講視頻傳播時,它的本源是一個信息傳播的載體,信息傳播本身要去分類的話,分為一對一進行交流或傳播,和一對多或者多對多,而另外一個維度上又分為延時和實時。

視頻的承載能力可以與眾多行業(yè)來做結合。所以,以前看視頻,我們基本會說視頻行業(yè)、視頻賽道,而現(xiàn)階段,我們更會認為所有領域都會如此結合視頻的情況下,它就像云計算一樣,不再更多的看成一個行業(yè)的概念,而是一個互聯(lián)網(wǎng)新經(jīng)濟底層的基礎能力。借此能力,各個行業(yè)可以去做一些創(chuàng)新的事,基于云、基于視頻,基于視頻云。

而視頻云,將會成為行業(yè)視頻化的必選項、成為大視頻產(chǎn)業(yè)的技術底座。

作為一種數(shù)智化基礎設施的存在,視頻云不僅大幅降低了視頻應用的準入門檻,更通過促進產(chǎn)業(yè)效率提升,不斷推動大視頻產(chǎn)業(yè)的繁榮。

從需求端思考,視頻云能夠為企業(yè)提供視頻能力或把產(chǎn)品視頻化,可以運用更多生產(chǎn)、處理、傳輸、消費增值能力。比如直播電商是最早深刻感受到的,整個電商主體在發(fā)生變化,原來能看到僅僅是幾個大的直播電商,但視頻化賦予了平臺電商化的轉型能力,讓現(xiàn)在的很多內(nèi)容平臺甚至創(chuàng)業(yè)公司都有非常大流量的中心位置,主播可以是電商的中心,而在過去,它是不存在的。

另外在線教育領域,在線教育摸索很多年都沒有辦法進行完整變現(xiàn),后來直播的出現(xiàn)讓行業(yè)解決了一定的沉浸感問題,學生可以跟老師有更多的互動,可以解決一些學習效率的問題。本質(zhì)上,視頻化確實解決了一部分教育的沉浸感和效果問題,以致在線教育在過去幾年終于找到它變現(xiàn)的邏輯。對電商和教育領域,艾瑞研究院副總經(jīng)理徐樊磊的分析是很精準的。

除了目前視頻化滲透率最高的電商和教育,廣閾的互聯(lián)網(wǎng)娛樂、傳媒行業(yè)的數(shù)智化轉型、企業(yè)的移動協(xié)同辦公,亦是視頻云技術應用的重點場域?；谝曨l云技術,新的商業(yè)場景還在不斷被打開,從新電商、新教育、新社交、新金融、新醫(yī)療,乃至更多產(chǎn)業(yè)、更多行業(yè)的轉型鋪面到來。

時代的演進、視頻的滲透、交互的變革,讓行業(yè)的變現(xiàn)邏輯、流量方向、組織形式都在發(fā)生巨大的格局變化。

就此,阿里云視頻云也聯(lián)合艾瑞咨詢共同研究,發(fā)布《2021中國視頻云場景應用洞察白皮書》,以云上創(chuàng)新為視角,全面展現(xiàn)視頻化應用的全場景、全鏈路,針對空間、盲點、機會、案例深度剖析,著力為視頻云賽道的商業(yè)市場奠定重要的實踐價值。

賽事和開源,是社會想象力的放大器

超視頻化的時代,視頻云的想象力遠不止步于商業(yè)場景,更多的是普惠全民、創(chuàng)造多元化的社會價值。

就在今年2月,阿里云聯(lián)手英特爾主辦、與優(yōu)酷戰(zhàn)略技術合作的全球視頻云創(chuàng)新挑戰(zhàn)賽啟動,這屆大賽是全球首個聚焦于視頻云技術在全行業(yè)的應用與創(chuàng)新領域的比賽,由天池平臺和阿里云視頻云承辦,初賽啟動便吸引了來自全球高校的4600支參賽戰(zhàn)隊。賽程中,能看到不斷涌現(xiàn)的創(chuàng)新項目,充滿社會向價值和全新生命力,如視覺算法實現(xiàn)的安全停車項目、老人看護項目。

值得一提的是,大賽通過與優(yōu)酷平臺聯(lián)手,提供了一個大規(guī)模高精度視頻分割數(shù)據(jù)集,供參賽選手訓練模型,并最終打磨成視頻分割領域的權威數(shù)據(jù)集,非常稀有。該數(shù)據(jù)集具備夯實的數(shù)據(jù)量級,包攬18萬幀以及高達30萬的最多視頻目標數(shù)據(jù)集,在標注精度和內(nèi)容廣度上均為行業(yè)領先。同時,內(nèi)容類型高度貼合真實場景且場景多元,對于視頻產(chǎn)業(yè)具有極高的探索意義。

數(shù)據(jù)作為信息時代重要的生產(chǎn)要素,被譽為新的動力能源,是人工智能技術發(fā)展的重要基礎。

通過與阿里巴巴集團內(nèi)部的淘寶、天貓、阿里云、優(yōu)酷、AE等業(yè)務團隊,以及清華大學、上海交通大學、中國科學院國家天文臺、中國計算機學會、中國中文信息學會、協(xié)和醫(yī)院、瑞金醫(yī)院等外部權威科研機構合作,天池大賽平臺開放了包括電商、金融、物流、醫(yī)療、能源等60多個有真實業(yè)務場景的產(chǎn)業(yè)稀缺數(shù)據(jù)集,為全球計算機視覺的人才培養(yǎng)做出卓越貢獻,為更多技術開發(fā)者創(chuàng)造更廣域的空間。

不得不說,激發(fā)澎湃能量的技術創(chuàng)新大賽和大規(guī)模的權威的開源數(shù)據(jù)集,為更多維的社會想象賦能,在此基礎上的技術綻放,很讓人期待。

若你也曼妙于沉浸想象里

歸根結底,無論技術、商業(yè)、生態(tài)、資源,一切都是為了人的情感和體驗。

科技不斷在和眾多領域發(fā)生互滲性,而藝術大概是我們最想觸摸的特別性場域,也是最接近人類內(nèi)心軟糯情感的神經(jīng)線。

7.10的“Imagine”阿里云視頻云全景創(chuàng)新峰會,從主辦方角度,真切地從想象出發(fā),試圖以一種視覺通道的沉浸感,拉進人與空間的距離。

當然,從科技跨界藝術的角度,我們深度關注的,是數(shù)字時代的審美創(chuàng)作實現(xiàn)。

我們發(fā)現(xiàn),當代藝術創(chuàng)作者也在不斷憑借其想象力和跨學科能力,致力科技與藝術的融合創(chuàng)作。在數(shù)字交互時代,創(chuàng)作、傳播的藝術行為在全面出新,進而在藝術審美的感覺、體驗和思維方面也在產(chǎn)生深刻變革。審美驅動技術,技術反哺審美。

在數(shù)字交互時代,極致的審美追求,是對專業(yè)的追求,而專業(yè)的背后蘊藏著創(chuàng)作效率、創(chuàng)作能力。技術無疑是幫助創(chuàng)意多感官、多維度實現(xiàn)的重要工具,而基于深度學習的AI工具在協(xié)助這樣的過程,為創(chuàng)意大腦插上翅膀。

與此,數(shù)智化能力對視覺交互的重構,也是非常重要的體驗演進,峰會上以“跨界智造“為內(nèi)核,嘗試呈現(xiàn)一些內(nèi)容和交互的新體驗裝置,如基于生成對抗網(wǎng)絡及遷移學習技術的卡通智繪、打造實時渲染屏幕的虛擬拍攝、通過面部和動作捕捉技術的虛擬偶像,一切都在探尋基于藝術、基于人的科技新體驗。

以上,便是阿里云視頻云在新時代窺見的有限視野,而無限的內(nèi)容還待想象。