AIと人間にみる創造性について —MidjourneyとChatGPTを用いてキャラクターデザインを検証する—

画像生成AIは人間の感性に近いアウトプットができるのか? —Midjourney・Adobe Firefly・Stable Diffusion比較—

前回の記事では、3つの画像生成AIを用い、人間の思い描くイメージや感性に近いアウトプットができるのかを検証しました。

今回は、画像生成AIがデザインしたキャラクターと、人間がデザインをしたキャラクターの比較を行います。

前回は抽象度の高いプロンプトを用いたのに対し、今回は人間の制作プロセスに近づけるため、企画書や仕様書のような具体的なプロンプトを使用しています。デザインのテーマはキャラクターデザインとし、画像生成AIはMidjourney*1を用いました。

*1 Midjourney: Midjourneyが制作したテキストの説明文から画像を作成する独自の人工知能プログラム。

人間がデザイン(創造)するプロセスを以下の図のように仮定し、「Midjourney」に出来る限り近いプロセスで生成させ、そのアウトプットを比較します。

画像生成AIは人間の感性に近いアウトプットができるのか? —Midjourney・Adobe Firefly・Stable Diffusion比較—

今回、Midjourneyに入力するプロンプトは、ChatGPTで生成した「キャラクターを説明する文章」を使用します。キャラクターの名前を直接使用せずに、出来る限り詳細なキャラクターを描写する説明文を用いています。例えばピカチュウであれば「ポケモン」といった、生成に際して直接的なヒントになりそうな固有名詞を省いています。

Midjourney検証対象キャラクター
①アニメのキャラクター:Pikachu(ピカチュウ)、Minion(ミニオン)、Sponge Bob(スポンジ・ボブ)
②実写化された小説の登場人物:Harry Potter(ハリー・ポッター)、Severus Snape(セブルス・スネイプ)

生成画像とプロンプトの比較

①アニメのキャラクターを比較

・ピカチュウ

画像生成AIは人間の感性に近いアウトプットができるのか? —Midjourney・Adobe Firefly・Stable Diffusion比較—

・特徴的なパーツが反映されていません。(プロンプトでは「顔の頬には丸い赤い部分」、「尾は稲妻を模倣したデザイン」と記載されていました。)
・生成された画像から全体イメージが虫、牛、蟹のようにばらつきがあるので、、生成したいキャラクターに類似した既存の生物の単語をプロンプトとして追加すると、よりイメージに近いキャラクターが生成できるかもしれません。

・ミニオン

画像生成AIは人間の感性に近いアウトプットができるのか? —Midjourney・Adobe Firefly・Stable Diffusion比較—

・プロンプト内の「オーバーオール」は反映されず、スーツを着た姿に変更されています。ほかにも、「プラスチックのようなゴーグル」が反映されていません。
・「長方形のカプセル状の体格」「体と一体化した頭部」とは異なった人間に近い姿になっています

スポンジボブ

画像生成AIは人間の感性に近いアウトプットができるのか? —Midjourney・Adobe Firefly・Stable Diffusion比較—

・プロンプトをそのまま出力したようなアウトプットになりました。
・海底に実在しているような海綿動物になっています。

②実写化された小説の登場人物を比較

ハリー・ポッター

画像生成AIは人間の感性に近いアウトプットができるのか? —Midjourney・Adobe Firefly・Stable Diffusion比較—

・ハリーポッターのチャームポイントであるメガネを掛けていません。
・「漆黒・強烈な個性・衝動的・孤独感」などのキーワードが反映されたためか悪役風の印象を受けます。

セブルス・スネイプ

画像生成AIは人間の感性に近いアウトプットができるのか? —Midjourney・Adobe Firefly・Stable Diffusion比較—

・暗い雰囲気や、物語から読み取れるキャラクターの特性は再現できているように見えます。
・「冷淡」「厳格」などの雰囲気も表現されているように感じます。
・アングルが同じであるため、服装(黒いローブ)や身長を表現できているのかは判断できません。

プロンプトの比喩表現について(画像生成後の気づき)

生成画像とプロンプトの比較をしていると、比喩表現が誤って解釈・反映されている点が目立っていたので、その点に注目しました。(比喩法とはある物事を別のものにたとえる表現方法で、 説明する物事に具体的なイメージを与えるという役割を持っています。「直喩」「隠喩」「擬人法」の3種類があるとされています。)

実際使われた比喩表現のプロンプトと、出力された結果

・ピカチュウ「まるでぬいぐるみのような愛らしさが漂います」
→金属的な質感から、ぬいぐるみらしさは連想されませんでした

・ピカチュウ「特にお腹部分が磨かれた“金属”のように輝いています」
→「金属」が全体に反映されメカニカルな印象になりました

・ミニオン「まるでワンピースのスーツを着ているかのようです」
→「着ているかのよう」は実際着てはいないという表現ですが、今回は服装に反映されています

・スポンジボブ「四角いスポンジのような形状」
→形状は、スポンジのイメージに近い表現になりました

・ハリー ポッター「稲妻のような形の傷跡がある」
→稲妻の形が反映されておらず、本物の稲妻を身体に纏っています

おわりに

比喩表現が正確に反映されていない点を除けば、Midjourneyで生成したキャラクターはプロンプトの説明文を概ね再現できているように感じました。Midjourneyが、人間が日常的に使う比喩表現を解釈できるようになると、よりプロンプトに忠実な出力が可能になると考えられます。

一方で、比喩表現は必ずしも正確な描写をするためだけのものではありません。
例えば、ハリーポッターの「メガネ」は反映されない結果となりましたが、他のキーワードから読み取れるキャラクター像を元に独自性を生成するため改変したからだ、と私たち人間は捉えることも出来ます。

人間が検討するプロセスの中でオリジナリティを獲得するように、Midjourneyが判断し画像を生成したと考えると、興味深い結果にみえてくるのではないでしょうか。