前不久,F(xiàn)acebook主辦的Deepfake檢測(cè)挑戰(zhàn)賽(DFDC)落下帷幕。近日,F(xiàn)acebook撰文介紹了其構(gòu)建的大規(guī)模Deepfake數(shù)據(jù)集DFDC。
數(shù)據(jù)集經(jīng)常存在有關(guān)版權(quán)、隱私方面的爭(zhēng)議,而Facebook構(gòu)建的這個(gè)數(shù)據(jù)集規(guī)避了這方面的風(fēng)險(xiǎn),它包含的所有數(shù)據(jù)均獲得圖像所有者本人授權(quán)。
Deepfakes是近期出現(xiàn)的一種直接可用的視頻換臉技術(shù)。除了Deepfakes以外,目前還出現(xiàn)了大量基于GAN的換臉?lè)椒ǎǘ疫€帶有代碼)。
這類技術(shù)給人們的隱私安全等帶來(lái)了威脅。為了應(yīng)對(duì)此類威脅,F(xiàn)acebook創(chuàng)建了一個(gè)大型換臉視頻數(shù)據(jù)集DFDC以支持Deepfakes檢測(cè)模型的訓(xùn)練,并組織了Deepfake檢測(cè)挑戰(zhàn)賽。
該數(shù)據(jù)集的亮點(diǎn)在于,所有對(duì)象均同意數(shù)據(jù)集使用其圖像或視頻,并允許在數(shù)據(jù)集構(gòu)建過(guò)程中對(duì)其數(shù)據(jù)進(jìn)行修改。
DFDC數(shù)據(jù)集是目前最大的公開(kāi)可用換臉視頻數(shù)據(jù)集,包含來(lái)自3426名付費(fèi)演員的10萬(wàn)多個(gè)視頻片段。這些視頻通過(guò)多種Deepfake、GAN和non-learned方法生成。
Deepfake數(shù)據(jù)集的規(guī)模對(duì)比。不管從幀數(shù)還是視頻數(shù)量來(lái)看,DFDC數(shù)據(jù)集都比其他數(shù)據(jù)集大一個(gè)數(shù)量級(jí)。
下面,我們來(lái)看DFDC數(shù)據(jù)集的構(gòu)建過(guò)程和方法。
源數(shù)據(jù)
很多Deepfake或換臉數(shù)據(jù)集中的片段來(lái)自新聞或簡(jiǎn)報(bào)室等非自然環(huán)境。而且,視頻中的人物可能壓根就沒(méi)授權(quán)數(shù)據(jù)集使用他們的面部圖像或視頻。
基于此,F(xiàn)acebook沒(méi)有使用公開(kāi)可用的視頻來(lái)構(gòu)建數(shù)據(jù)集,而是先向一些個(gè)人獲得錄制視頻、將視頻用于構(gòu)建機(jī)器學(xué)習(xí)數(shù)據(jù)集,以及使用機(jī)器學(xué)習(xí)模型處理他們的面部圖像的授權(quán),進(jìn)而得到了一組視頻。
為了反映Deepfake視頻對(duì)非知名人士造成的潛在傷害,該數(shù)據(jù)集中的視頻均在沒(méi)有專業(yè)打光或化妝的自然環(huán)境下錄制。不過(guò)視頻錄制使用的是高分辨率攝像機(jī)。
該數(shù)據(jù)集中的源數(shù)據(jù)涉及:
3426名對(duì)象,每個(gè)對(duì)象平均錄制14.4個(gè)視頻,大部分視頻的分辨率為1080p;
48,190個(gè)視頻,每個(gè)視頻的平均長(zhǎng)度為68.8秒,共計(jì)長(zhǎng)度38.4天;
原始數(shù)據(jù)超過(guò)25 TB。
下表展示了不同Deepfake數(shù)據(jù)集的量化對(duì)比情況:
從中我們可以看出,DFDC數(shù)據(jù)集的規(guī)模最大,涉及到的對(duì)象數(shù)量最多,且獲得所有對(duì)象的授權(quán)。
數(shù)據(jù)集創(chuàng)建者使用內(nèi)部人臉追蹤和對(duì)齊算法對(duì)源視頻進(jìn)行預(yù)處理,將所有人臉幀剪裁、對(duì)齊,并將大小重新調(diào)整為256x256像素。
數(shù)據(jù)集創(chuàng)建過(guò)程中用到的換臉?lè)椒?/span>
該數(shù)據(jù)集使用多種方法生成換臉視頻,這些方法涵蓋了數(shù)據(jù)集創(chuàng)建時(shí)最流行的一些換臉技術(shù)。每種方法生成的視頻數(shù)量并不均等,生成最多換臉視頻的方法是Deepfake Autoencoder(DFAE)。
具體而言,DFDC數(shù)據(jù)集創(chuàng)建過(guò)程中使用的換臉?lè)椒òǎ?/span>
DFAE:Deepfake自編碼器(DF-128、DF-256),數(shù)據(jù)集創(chuàng)建過(guò)程中使用模型的輸入/輸出分辨率為128x128和256x256。
MM/NN face swap:使用基于自定義幀的morphable-mask模型進(jìn)行換臉。
NTH:在few-shot和one-shot學(xué)習(xí)環(huán)境下,生成逼真的說(shuō)話人頭部[31]。
FSGAN:使用GAN進(jìn)行換臉[20]。
StyleGAN:參見(jiàn)《》。
Refinement:對(duì)混合后的人臉使用簡(jiǎn)單的銳化濾波器可以極大地提升最終視頻中的感知質(zhì)量,且?guī)缀醪恍枰~外的成本。
audio swapping:使用[22]中的TTS Skins voice conversion方法進(jìn)行音頻轉(zhuǎn)換。
不同方法生成人臉的質(zhì)量參見(jiàn)下圖:
數(shù)據(jù)集構(gòu)成
訓(xùn)練集:訓(xùn)練集包括119,154個(gè)十秒視頻片段,涉及486個(gè)不同的對(duì)象。其中10萬(wàn)個(gè)視頻包含Deepfakes內(nèi)容,也就是說(shuō)數(shù)據(jù)集中83.9%的視頻為合成視頻。這些Deepfakes視頻通過(guò)DFAE、MM/NN face swap、NTH和FSGAN方法生成得到,且未使用任何數(shù)據(jù)增強(qiáng)。
驗(yàn)證集:驗(yàn)證集是DFDC競(jìng)賽中用于計(jì)算排行榜位置的公共測(cè)試集。該數(shù)據(jù)集包含4000個(gè)十秒視頻,其中半數(shù)(2000個(gè)視頻)包含Deepfakes內(nèi)容。驗(yàn)證集共涉及214個(gè)不同的對(duì)象,且與訓(xùn)練集并不重合。此外,該數(shù)據(jù)集使用的Deepfakes生成方法相比之前多了一項(xiàng)——StyleGAN。該數(shù)據(jù)集中大約79%的視頻應(yīng)用了數(shù)據(jù)增強(qiáng)技術(shù)。
測(cè)試集:私有測(cè)試集包含一萬(wàn)個(gè)十秒視頻。與公共測(cè)試集一樣,其中一半為Deepfakes視頻。但是,二者的區(qū)別在于,私有測(cè)試集中一半視頻來(lái)自網(wǎng)絡(luò),另一半來(lái)自源數(shù)據(jù)。
讀者可以在以下地址查看DFDC競(jìng)賽使用的數(shù)據(jù):
數(shù)據(jù)增強(qiáng)
Facebook團(tuán)隊(duì)使用多種數(shù)據(jù)增強(qiáng)技術(shù),如幾何變換或干擾等。主要的增強(qiáng)方法如下所示:
干擾:將各種物體(圖像、形狀、文本等)疊加在視頻上;
增強(qiáng):對(duì)視頻應(yīng)用幾何變換、顏色變換、幀率更改等。
數(shù)據(jù)增強(qiáng)示例參見(jiàn)下圖:
WAIC 2020黑客馬拉松由世界人工智能大會(huì)組委會(huì)主辦,張江集團(tuán)、優(yōu)必選科技、軟銀集團(tuán)旗下軟銀機(jī)器人、Watson Build創(chuàng)新中心、機(jī)器之心聯(lián)合承辦,受到新冠疫情的影響,比賽將于7月8日-11日期間以遠(yuǎn)程和小規(guī)模線下結(jié)合的方式舉辦,招募全球頂級(jí)開(kāi)發(fā)者同臺(tái)競(jìng)技。