StableDiffusion その6 WaifuDiffusionへ
WaifuDiffusionの衝撃
StableDiffusionの学習元データはLAION-5Bという比較的品のいいデータです。
LAION-5B: A NEW ERA OF OPEN LARGE-SCALE MULTI-MODAL DATASETS | LAION
※厳密にはLAION-Aesthetics V2というLAION-5Bの中でもより好ましいデータを元にしているようです。
芸術をやるには十分ですが、イラスト/アニメ、特にいわゆる日本風の萌え系のイラスト、もっと平たく言うとDanbooruで収集されているような(エロ)アニメを出力するような悪い画像はあまり(全くではない)学習しておらず、得意ではありません。
じゃあ学習させてみたらどうなるんだ?という疑問と、AIで美麗なアニメのイラストを出力したいという願望は世界共通らしく、学習元のデータとしてDanbooruの比較的良好なデータに絞り、イラストに特化した形で追加で学習させたのがWaifuDiffusionということのようです。
hakurei/waifu-diffusion · Hugging Face
いろいろと議論というか…問題点のあるデータではある。
Danbooru: Anime Image Board https://danbooru.donmai.us/
大丈夫なの?
このあたりの、AI画像に関する法解釈については様々な人が説明してくれています。
- Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権 | STORIA法律事務所
- Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権(その2) | STORIA法律事務所
素人に詳細は理解しきれない部分がありますが、公開されている学習データについて今すぐ公開をやめさせたり、利用をやめなければいけない、という類のものではなく、元の利用規約にあるように出力された画像で危害を与えなければ大きな問題にはならないようです。
waifuもあまりとんでもない内容を学習してはいないように見えます(aesthetic rating greater than 6.0に限る)。綺麗なイラストを出力できるように追加で学習させたものという程度。ちゃんとしている。
christophschuhmann/improved-aesthetic-predictor: CLIP+MLP Aesthetic Score Predictor
Train, use and visualize an aesthetic score predictor ( how much people like on average an image ) based on a simple neural net that takes CLIP embeddings as inputs.
とりあえず出力してみた
Face-centered bust-up compositions. A beautiful hyper detailed huge busty bathing * wearing luxury lingerie bodysuit,garterbelt,Stocking in the romantic Outdoor very big bathtub with bloomed-white-flowers, in the Very bright heavenly realm room, Strong Sunlight shining through the window, painted by *. She is wearing a lot of jewelry, veil, wedding veil, lace gloves, ring, tiala, neckless, earrings, blesslet, anklet from Tiffany & Co, louis comfort tiffany. Perfectly shaded, atmospheric lighting, highly detailed, digital painting, artstation, concept art, smooth, sharp focus, cinematic lighting, 8k, 4k HD. style of raphael lacoste, louis comfort tiffany. painted by *
あきらかに顔つきが変わっているのと、体つきがアニメになっていることがわかった。巨乳の表現が近代的なソシャゲのイラストのようになっているではないか(!!!)。バストのトップ(乳輪や乳首の表現のこと)も大きく変化していた。一方でバックグラウンドの品質が下がったようにも見えた。恐らく学習内容として美少女と適当な背景というイラストで上書きしたため、人物と精細な背景の合成というのがちょっと苦手になったのではなかろうか。
WaifuはDanbooruのタグを学習しているとあるのですが、アーティスト名はあえて学習から除外しているらしく、おもしろいように〇〇風の作品を出すというようなことはできなくなっています。なので、美少女の顔の出方はガチャになる傾向があります。指定が効くのは作品名なのですが、精度は低く、ある程度絞り込めるものの、最終的にはガチャっぽくなってくるなという印象でした。
idolmaster…
どのキーワードを指定したら綺麗な美少女のイラストを学習したデータを使うんだ? genshin_impact, kantai_collection, azur_lane, cygamesなどDanbooruで学習しているはずのタグを試行錯誤していたところ、比較的歩留まりのいいキーワードがあった。idolmasterである。
<
これらの画像が出た際にハッとした。
キーワードを変えるとそれぞれの雰囲気が出るような傾向があるのですが、AI画像生成と特に相性が良さそうなのがidolmasterでした。この絵の出方を見て、これはすごいところまで来たなと思いました(小並感)。
このレベルのものを出すにはいくつかコツがあって、512pxよりも少し高い解像度で、美少女イラストとしてよく描かれる胸から上を中心にした構図(バストアップ、ポートレート)にして、顔の精細度の高い出力を得るようにする必要があるようです。WaifuDiffusionは弱点だった美少女の目の表現をかなり強化しているため、顔にフォーカスすると比較的良好な結果になる傾向があります。
何故、何故お前はビキニで風呂に入れるのか
AIは手足が超絶に下手、関節がわかってない、手の指の本数もわかってない(ノイズから復元する際に方向を見たり本数を数えたりしない、できないってことだと理解してます)。光の描画は達人。お花が上手。水の表現ができる。長所を伸ばして短所をカバーできるシーンが、お風呂なんです。いやらしい。
画像生成AIは別に人体に特化したものではないので、関節のような方向と本数があっていないと致命的なものにはまだ向いてないみたいですね。
公開しませんが、多頭、多足、複乳はAI画像生成やってるとまぁもうしょうがない。でも多眼はめったにないので、学習の量なんだと思います。顔に比べて手足の学習がずっと少ないということですね。
これはwaifuだ
これは、正直に凄いと思います。waifu生成機。無限にwaifuのバリエーションが生み出される魔法のコピー機。キャラ達は、どこかで見たような、見たことがないような、中間的な雰囲気。ギリギリのライン。
自分にはどうしてもこの画像の著作権の全てが生成した自分にあるとは思えていません(だってモトはDanbooruの作品ですよ)。あくまで借り物の、コラ画像に見えています。これからどんどん精度が上がっていく中で、これをAI生成であるということを公開せず、自分のモノだと言って振る舞う人は大勢出てくるのだと思いますが、一体どうなっていくのでしょうか。全然わかりません。俺たちは雰囲気でAI画像生成をやっている。