アンデットワールドへようこそ

死霊ゾーマのお家は右隅ですよ

AI絵をざっくり理解したのでまとめる

理解の整理も含めてざっくりまとめ

 

現在の主流となっているStable DiffusionはAIがプロンプト(テキスト、だいたい英単語。時に呪文といわれる)を元に画像を生成するものがよくつかわれている(txt2img

後は画像を元に画像を作るものもある(img2img)

 

※AI絵が叩かれがちなのは、AIといえども元になる画像を学習させないといけないのですが、無許可で元となる学習をさせた(させる)からで、簡単に言うと勝手に本屋で立ち読みさせて子供に勉強させてたって感じです。

加えてimg2imgの方は完全にトレパク、一部のみフォトショで加工みたいなものができてしまうのでより悪化している。

 

AI絵の仕組みを理解しようと思ったのですがだいぶ難しくよくわかりませんでした。

あなたは小学生が描いたリンゴがぐちゃぐちゃでも赤くて丸くて葉っぱみたいなのがついていれば、大体リンゴかなってわかりますよね。

そんな感じでノイズをのっけた画像をいっぱい勉強させた結果

これな~~んだとぐっちゃぐちゃのテレビの砂嵐みたいな絵から りんご! とわかるようになっているらしい。

 

よくわからないのでおそらく間違っているし、

なんでぐちゃぐちゃの砂嵐から絵が作れんねんと伝わらないのですが、

だいぶ昔にTwitterで流行ったノイズからエッチな絵を作るというやつ。

これに近いと思います。

 

Stable Diffusionというのはオープンソースらしく、いろんな人が改造していろんなバージョンがあるのですが、

一番今有名なのはおそらくAUTOMATIC1111版Stable Diffusion web UIでしょう。

(AUTOMATIC1111は人の名前。)

処理にはパワーが必要で出た当初はグーグルのネットサービスで出来てたみたいなのですが、あまりに負荷がかかるためグーグルが禁止などして今はサービスとして有料化されたものを使うか、つよつよPCを持っている人がパソコンに環境を整備するかの2択となっています。

上のAUTO(ry は後者のものとなっています。

 

いきなり出てきた知らん単語編

model・・・絵師です。

例えばリンゴを書いてくださいと冨樫義博に頼むのと、荒木飛呂彦では作風が違うと思います。そんな感じで誰に頼むかというもので作品の方向性を決める大事なものです。

たとえば2次絵をかくのが得意なもの。3次絵を得意とするものなどその分野に特化したものや全般いけるよーみたいなものもあります。

適切なモデルをつかわないと何かいてもジョジョ立ちしちゃうみたいなことになったりします。

ちなみにマージモデルという絵師2人を融合し1つの絵師とするというものもあります。

あと拡張子は「.safetensors」または「.ckpt」となっており、最初の.safetensorsの方が安全らしいです。(どうやらckptには悪意を込められるらしい。エクセルのxlsmかxlsxかみたいなもんだと思います。)

モデルサイト https://civitai.com/

 

VAE・・・絵師のアシスタントの人です。

色とか線とか細かい生成の部分にかかわっているものらしいです。

大体modelと呼ばれるものはこれがセットになっているのですが、

稀にないものもあるらしいのでその場合はこちらでアシを追加しなければならない。

modelと比べると種類が少なく、大体5個ぐらい。

 

LORA・・・絵師の頭を洗脳し、強制的に概念をぶち込む必殺技です。

たとえば荒木先生に「うちの学校で流行ってるパンダ書いて」といっても荒木先生はそんなの見たことないので普通のパンダを書きます。

そこで学校で流行りのパンダの絵を30枚荒木先生に見せたらおそらく荒木先生は学校のパンダを書けるようになりますよね?

ここで見せた30枚のパンダの絵がLORAです。

既存のモデルに追加で学習させたるような感じ。

実際に使うには必殺技なので”インスタントプロンプト”と呼ばれる発動条件に必要なコマンドが必要となります。

つまり、学校のパンダの絵を学習させた荒木先生にパンダ書いてといっても学校のパンダにならないように特定の条件で発動するようになっております。

また、どれだけ寄せるかも重要となっておりますが

大体DLするページに書いてありますのでよく読みましょう。 

https://civitai.com/models/10135/japanese-doll-likeness

これで言うとトリガーは「girl」「woman」と書いてます。