還在為AI生成的角色肢體扭曲而頭疼嗎?想要用一個底稿同時測試多種不同畫風(fēng)嗎?想要讓你的AI生成結(jié)果更精準(zhǔn),更可控嗎?全新的ControlNet技術(shù)幫你一次解決!這一技術(shù)由斯坦福大學(xué)的計算機(jī)在讀博士Lvmin Zhang在情人節(jié)前夜發(fā)表,旋即因其強(qiáng)大的功能震驚全網(wǎng)創(chuàng)作者。
圖源:Lvmin Zhang個人網(wǎng)站
ControlNet究竟強(qiáng)大在哪兒?簡單來說,這一技術(shù)可以為AI擴(kuò)散模型增加一個額外的輸入,對AI的輸出方向進(jìn)行限制。如同在一望無際的沙漠上修建了道路與指示牌,為迷失方向的旅行者提供了前行的方向。
在ControlNet出現(xiàn)前,AI畫師們想要產(chǎn)出具有特定特征的圖像,就必須在“魔法咒語”上大下功夫——用戶常常需要加上一系列的動作、位置修飾詞語來描述圖中角色的姿勢、肢體特征等,而即便這樣,出圖也依然需要大量的運(yùn)氣成分。而利用ControlNet,AI可以通過草圖、人體關(guān)鍵點(diǎn)特征、深度圖、人體骨骼等特征按圖索驥,產(chǎn)出滿足特定要求的圖片文件。
例如,假若你想要獲得一只動物的圖像,那么你可以首先提供一個勾勒有該動物雛形的手繪草圖,再佐以相應(yīng)的文字描述,AI便可以按照你所勾勒出的形狀生成對應(yīng)圖片。顯而易見地,通過調(diào)整輸入Prompt,你可以在角色本身不變動的基礎(chǔ)上快速調(diào)整與之搭配的畫風(fēng)、背景等元素,同時輸出多個版本。
ControlNet還可以從圖像中提取角色的肢體信息,再將這一信息應(yīng)用于角色的生成。無需繁瑣的咒語,用戶就可以一步到位對角色的動作姿勢進(jìn)行自定義——這是極大的突破。
此外,據(jù)國內(nèi)知名AI技術(shù)人士“勘云工造”表示,ControlNet目前甚至支持對手指骨骼進(jìn)行綁定,這意味著此前廣受詬病的“AI不會畫手”這一重要缺陷將在未來的AI生成中大幅減少,大大增加出圖成功率。
據(jù)原論文,ControlNet可給出的輸入類型共八種,包括手繪草圖、人體骨骼、語義分割圖像、Canny邊緣圖像、人體特征點(diǎn)、霍夫變換直線、深度圖等。用戶可輸入的遠(yuǎn)不止角色、動物等物體的特征,對場景、環(huán)境等非生物同樣可以進(jìn)行輸入。在論文中,作者演示了利用霍夫變換直線為藍(lán)本,生成不同風(fēng)格的室內(nèi)外場景,效果驚人。
社交媒體上,各路大神也紛紛出動,開始了對這一全新技術(shù)的大膽探索。來自Reddit的StableDeffusion板塊的一名用戶展示了自己的工作流,將3D制作軟件Houdini中搭建出的白模與ControlNet聯(lián)動,直接在白模的基礎(chǔ)上生成不同角度的設(shè)計概念圖。
此外,還有部分用戶開始嘗試用ControlNet處理連續(xù)幀生成3D動畫。盡管在細(xì)節(jié)上仍然有較大的偏差區(qū)間,但相較ControlNet以前的生成效果,已經(jīng)上升了一個臺階。
圖源:推特@toyxyz3
從最初只能生成怪異梗圖的DALLE到憑借流暢對話能力震驚世界的ChatGPT,AI技術(shù)在過去三年間所取得的迭代速率實(shí)在是讓人驚訝。ControlNet技術(shù)的出現(xiàn)更是大幅提高了AI出圖的精準(zhǔn)性,這讓AI生成圖像技術(shù)向著成熟的生產(chǎn)力工具方向邁出了重要的一步。AI這匹桀驁不馴的野馬被拴上了韁繩,讓它能夠更加有效地聽取人類指令。隨著入局的大公司日漸增加,AI技術(shù)還會有何種發(fā)展呢?GameLook滿懷激動的心情翹首以待。