Google推出全新文本生成圖像AI工具“Imagen”,并公開一系列由Imagen生成的圖片。
Google旗下深度學習與人工智能科研項目團隊Google Brain,近日發(fā)布了一系列由新的文本生成圖像AI工具“Imagen”制出的成果。Imagen通過解析用戶所輸入的文本而生成寫實的圖像,更能突破人類的想象力。
在雪地里戴著空手道腰帶的火龍果。 (A dragon fruit wearing karate belt in the snow.)
機器人在水浸的莫奈美術展覽中使用槳板。
(An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.)
泰迪熊在奧運400米蝶泳項目中游泳。 (Teddy bears swimming at the Olympics 400m Butterfly event.)
圖片來源:Google
Google通過DrawBench圖像模型基準測試來評估Imagen的文本生成圖像能力,較VQ-GAN、LDM及DALL-E 2等同類型工具比,Imagen生成的圖像逼真度更高,語言理解能力也更好,與輸入的文本較為符合,偏好率更高達50%。與DALL-E 2相比,Imagen能準確地為圖像配色,而DALL-E 2則容易混淆多個顏色指令的文本。
圖片來源:Google
Google表示,由于Imagen在生成圖像過程的評估工作尚有不足,導致在生成圖像時出現一些社會和文化偏見,也傾向西方對性別的刻板印象,例如膚色及對職業(yè)的描繪,更出現色情圖像、種族主義攻擊言論等的不當內容。因此在有關問題修復前,將不會對外開放Imagen的程序代碼,更不會對外展示。
數據源:Deccan Herald