更多

    Stable Diffusion 圖像生成再有突破!ControlNet 控制角色姿勢不再靠撞彩

    Mickey Chan
    Mickey Chan
    愛模擬飛行、希望終有一日回到單車上的宅,眼鏡娘控。座右銘: 1.膽固醇跟美味是成正比的; 2.所有人都可以騙,但絕對不能騙自己; 3.賣掉的貨才是錢,不賣的收藏品不值一文; 4.踩單車,是為了吃更多美食! 5.正義的話語,不一定出自正義之人的口;

    一直以言,圖像生成中一大難題就是控制姿態或環境布局,人們以 Trail and Error 的方式大量生成圖像,希望贏出這場「咒語競賽」。不過近日一個名為 ControlNet 的神經網絡結構推出,就被喻為可以扭轉圖像生成咒語競賽的殺手技術,用戶可以輕易控制生成角色的姿勢,大大縮短咒語的長度。

    ControlNet 從照片中擷取出主體的形狀和方向,再由 Stable Diffusion 生成不同圖案的背囊。
    ControlNet 從照片中擷取出主體的形狀和方向,再由 Stable Diffusion 生成不同圖案的背囊。

    ControlNet 主要適用於 Stable Diffusion 擴散模型,它是加在以文字生成圖像中加入額外的輸入條件,以控制生成出來的圖像。兩者拼用就能輕易控制生成結果。

    ControlNet 的成長可謂相當迅速,2 月 10 日才發表論文,隨即就有訓練好的模型,對 Python 有一定認識的話,不妨到 ControlNet 的 GitHub 專案頁下載模型來試試。

    從網上發表的例子可以看到,ControlNet 可憑著輸入一張圖片上擷取出角色姿勢,從而生成另一批姿勢幾近相同的圖像,也可以以 Openpose 擷取出骨架來控制生成圖像中角色的姿勢。而且輸入的圖像不需要是完整的圖畫,只是用簡單線條勾出造型也可以。

    除了人物、動物角色之外,ControlNet 就連環境布局都可以控制得到,例如房子的方向、角度和透視等。

    有研究 AI 生成圖像的插畫師就表示,ControlNet 可以結束以複雜的咒語反覆測試,「扭蛋式」大量生成圖像看哪句咒語合用的做法,今後再不需要提示字句,用骨架直接用 AI 生成指定構圖和姿勢就可以。他認為雖然未來人人都可以輕易用到 AI 技術,不過自己仍可以運用畫師的技術來構圖。

    您會感興趣的內容

    相關文章