Stable Diffusion 圖像生成再有突破！ControlNet 控制角色姿勢不再靠撞彩

一直以言，圖像生成中一大難題就是控制姿態或環境布局，人們以 Trail and Error 的方式大量生成圖像，希望贏出這場「咒語競賽」。不過近日一個名為 ControlNet 的神經網絡結構推出，就被喻為可以扭轉圖像生成咒語競賽的殺手技術，用戶可以輕易控制生成角色的姿勢，大大縮短咒語的長度。

ControlNet 主要適用於 Stable Diffusion 擴散模型，它是加在以文字生成圖像中加入額外的輸入條件，以控制生成出來的圖像。兩者拼用就能輕易控制生成結果。

ControlNet 的成長可謂相當迅速，2 月 10 日才發表論文，隨即就有訓練好的模型，對 Python 有一定認識的話，不妨到 ControlNet 的 GitHub 專案頁下載模型來試試。

從網上發表的例子可以看到，ControlNet 可憑著輸入一張圖片上擷取出角色姿勢，從而生成另一批姿勢幾近相同的圖像，也可以以 Openpose 擷取出骨架來控制生成圖像中角色的姿勢。而且輸入的圖像不需要是完整的圖畫，只是用簡單線條勾出造型也可以。

除了人物、動物角色之外，ControlNet 就連環境布局都可以控制得到，例如房子的方向、角度和透視等。

有研究 AI 生成圖像的插畫師就表示，ControlNet 可以結束以複雜的咒語反覆測試，「扭蛋式」大量生成圖像看哪句咒語合用的做法，今後再不需要提示字句，用骨架直接用 AI 生成指定構圖和姿勢就可以。他認為雖然未來人人都可以輕易用到 AI 技術，不過自己仍可以運用畫師的技術來構圖。