一直以言,圖像生成中一大難題就是控制姿態或環境布局,人們以 Trail and Error 的方式大量生成圖像,希望贏出這場「咒語競賽」。不過近日一個名為 ControlNet 的神經網絡結構推出,就被喻為可以扭轉圖像生成咒語競賽的殺手技術,用戶可以輕易控制生成角色的姿勢,大大縮短咒語的長度。
ControlNet 主要適用於 Stable Diffusion 擴散模型,它是加在以文字生成圖像中加入額外的輸入條件,以控制生成出來的圖像。兩者拼用就能輕易控制生成結果。
ControlNet 的成長可謂相當迅速,2 月 10 日才發表論文,隨即就有訓練好的模型,對 Python 有一定認識的話,不妨到 ControlNet 的 GitHub 專案頁下載模型來試試。
從網上發表的例子可以看到,ControlNet 可憑著輸入一張圖片上擷取出角色姿勢,從而生成另一批姿勢幾近相同的圖像,也可以以 Openpose 擷取出骨架來控制生成圖像中角色的姿勢。而且輸入的圖像不需要是完整的圖畫,只是用簡單線條勾出造型也可以。
除了人物、動物角色之外,ControlNet 就連環境布局都可以控制得到,例如房子的方向、角度和透視等。
有研究 AI 生成圖像的插畫師就表示,ControlNet 可以結束以複雜的咒語反覆測試,「扭蛋式」大量生成圖像看哪句咒語合用的做法,今後再不需要提示字句,用骨架直接用 AI 生成指定構圖和姿勢就可以。他認為雖然未來人人都可以輕易用到 AI 技術,不過自己仍可以運用畫師的技術來構圖。