Midjourney VS DALL-E 五番勝負(その1)
Photo by Steve Johnson on Unsplash
みなさん、こんにちは。イデアルアーキテクツ・ゲーム事業部の塚本です。
皆さんは画像生成AIを使ったことがありますか?
最近では無料で利用できるサービスも増えてきて、一度は触ってみたという方も多いのではないでしょうか。
私が本格的に画像生成AIを使い始めたのは「Midjourney」からでした。
現在は完全に有料化されていますが、当時はトライアルとして25枚程度の画像を無料で生成できました。
その魅力にすっかりハマってしまい、すぐに課金。以降、仕事でもプライベートでもイラストが必要な場面ではMidjourneyを活用しています。
そんな中、最近になって「ChatGPT」からも画像生成AI「DALL·E」が利用できるようになり、Midjourneyに迫るクオリティを無料で提供し始めました。
実際に使ってみたところ、操作もわかりやすく、プロンプトというよりChatGPTとの会話を通じて自然にクオリティが上がっていく点が非常に印象的でした。
ということで、今回から何回かに分けて、「Midjourney」と「DALL-E」を実際に比較しながら、それぞれの特徴や強みを検証していきたいと思います。
題して――
「Midjourney VS DALL-E五番勝負」。今回はその第1回目です。
さて、最初のテーマは「リアルな女性」。
まずはシンプルなプロンプトとして「Hollywood Actress」と入力してみました。
ちなみに、日本語の入力にも対応はしていますが、英語の方がレスポンスの精度が明らかに高いため、今回は英語で統一しています。特にMidjourneyではその差が顕著に現れます。
生成された画像を見ていくと、いきなり比較しづらい状態に気が付きました。
Midjourneyは1回の入力に対して4枚の画像を生成しますが、一方、DALL-Eは1枚のみ生成です。
Midjourneyはそのうち3枚がクラシック映画風の女優を描いたようなものでした。
一方、DALL-Eは1枚のみ生成されたので、「4枚描いて」と指示して再生成してみます。
今風のハリウッド女優が4枚表示されましたが、それぞれ微妙な違いがある程度で、ほぼ同じ印象です。
このラウンドは、画像バリエーションの幅広さという点でMidjourneyに軍配が上がったと言えるでしょう。
ただし、クオリティ自体は両者とも高水準で、甲乙つけがたい仕上がりでした。
続いて第2ラウンドでは、もう少し詳細なプロンプトを使って比較してみます。
Midjourney側は生成された4枚の中から、私が最も気に入った1枚を選んでいます。
使用したプロンプトは以下のとおりです:
「An actress who looks like a character from a fictional action movie.
She has blonde hair and is wearing a tight-fitting Rider suit.
The background is a scene of a building exploding.
The actress is looking back with her back to the camera.」
日本語にすると:
「架空のアクション映画の登場人物のような女優。
ブロンドの髪にぴったりしたライダースーツを着ており、背景にはビルの爆発シーン。
その中で、女優はカメラに背を向けて振り返っている」
というイメージです。
いわゆるアクション系スーパーヒロインのような雰囲気を狙って入力したところ――
Midjourneyは非常に雰囲気のある仕上がりに。DALL-Eも一見良さそうなのですが、やや頭身のバランスが崩れて見える印象を受けました。
また、衣装の質感もやや平坦で、リアルさに欠けていたように思います。
このラウンドもMidjourneyに一票です。
そして第3ラウンドは、「どこまでリアルに描けるか?」という点にフォーカスしてみました。
プロンプトには“realistic”に加えて、具体的なカメラレンズ名「Nikon AF-S DX NIKKOR 35mm f/1.8G」も記載。
これは、実際のレンズ写真の作例を学習したAIが、そのタッチを再現しやすくなる効果を狙っています。
さて、生成結果ですが――
正直なところ、どちらも「これぞリアル!」というレベルには達していませんでした。
Midjourneyは、むしろリアルさが後退した印象。
一方DALL-Eは、多少バランスが整ってきたように見えましたが、それがプロンプトの影響かどうかは判断が難しいところです。
(もしかすると、レンズ情報を入れたことでポートレート系の学習成果が反映された可能性もありますが…)
もっとゴリゴリにプロンプトを書けばリアルに近づくと思いますが、この検証ではなるべく両者同じ
プロンプトで検証したいので、この辺りが妥当かと思います。
このラウンドは引き分けということにしておきます。
というわけで、今回の3ラウンドの結果は――
Midjourney 2勝、引き分け1、DALL-E 0勝という形になりました。
ただし、これはあくまで一例に過ぎません。
テーマやモチーフが変われば、また違った結果になる可能性も大いにあります。
次回以降も、さまざまなジャンルやシチュエーションで検証を続けていきますので、ぜひお楽しみに。
それでは、また次回お会いしましょう!
/assets/images/543744/original/698edbe5-db67-4c0e-8fa0-447b6b87153c.jpeg?1472709375)