皆さんこんにちは!
イデアルアーキテクツ、ゲーム事業部の塚本です。
今回は「MidjounyとDALL-Eの画像生成・五番勝負」レポートの最終回、第四戦と第五戦をお送りします。
第四戦:「タイポグラフィ」対決
今回は「タイポグラフィ」という視点から、DALL·E と Midjourney の画像生成能力を“対決”形式で整理してみます。
文字という“形”をいかにデザインとして活かせるか——その挑戦をぜひ一緒に楽しんでください。
まずはシンプルに「Ideak Architects」と社名をロゴにしたいと思います。
ぱっと見どちらも遜色無いように見えますが、あれれ?
MidJounyの画像を良くみると「Architects」が「ARCHIECTS」と
途中のTが抜けています。
Midkounyは同時に4枚の画像を生成しますが、そのどれも
「Achetrets」とか「Archetrets」など文字がぐちゃぐちゃです。
実はDALL·Eは「文字が読める」ことに強く、特に最新版のDALL·E 3では、画像内に描かれるテキストの再現性が一気に向上しました。以前のAI画像では「PLAY」が「PLAV」になったり、「LEVEL UP」が「LEVEI UP」になったりと、惜しい場面が多かったのですが、現在のDALL-Eであればほぼその問題が解消されています。
反してMidjourneyは自由奔放で、時には文字が画面の隅に逃げたり、角度をつけて浮かび上がったり、そもそも今回の様に文字自体を理解せず描画している様に見えます。
次は「破綻していないフォント、可愛くポップ、ジオメトリックなデザイン」と指定してみましょう。
プロンプトは以下の通りです。
"Ideal Architects" text logo, clean geometric sans-serif typography, pastel color palette (pink, mint, yellow), surrounded by playful geometric shapes (circles, triangles, squares, semicircles) arranged in a balanced composition, minimal flat design, white background, modern pop graphic style, cute and creative branding,
今度はMidjounyもスペルを間違えていませんね。
どちらも正解とは言い難いですが、方向性は違うとは言え一気に品質に差は亡くなった様に見えます。
というわけでデザインという部分では優劣は付け辛いものの、文字やスペルの理解度を考慮して、タイポグラフィ対決はDALL-Eの勝利という事にしたいと思います。
第五戦:「動画」対決
さていよいよ最後の対決です。
最後の勝負は動画対決です。
「DALL-Eじゃ動画の生成できないんじゃない?」と思ったあなた!
君だけ大正解!
この動画だけDALL-Eを開発しているOpen AIが動画生成AI「Sora」を公開しているので、DALL-EのピンチヒッターとしてSoraに登場してもらおうと思います。
ただし、ChatGPTから直接Soraを呼び出せるわけでは無いので、ChatGPTに指示を出してプロンプトを考えてもらいます。
またMidjouny側は、プロンプトから直接動画生成ができないので、一度同じプロンプトを描いてからAnimete機能を使って動画を作成してみます。
まず最初にリアルなシーンを動画にしてもらいます。
以下が使用したプロンプトです。
A cinematic, live-action style motor racing scene on an oval circuit,
featuring five cars of different types — silhouette formula, GT racers, and prototype-style machines —
drifting through a sharp corner together, white tire smoke rising as they battle for position.
Captured from a low, handheld tracking camera angle near the inside of the corner,
showing dynamic motion blur and natural camera shake.
Natural sunlight with soft ambient lighting and realistic shadows,
no CGI gloss, no artificial reflections, realistic film-like texture.
Dust and smoke diffuse the golden-hour light, sparks flying near the curbs.
Each of the five cars has distinct colors and designs, all clearly visible in frame.
Cinematic composition, realistic depth of field, gentle lens flares,
film color grading, warm tones, smooth dynamic energy,
photo-realistic live-action look
こちらで生成された以下の動画です。
記事の中に直接動画が貼れないのでリンクで失礼します。
リンクをクリックすると生成された動画が閲覧できます、
Sora
20251105_1600_New Video_simple_compose_01k99d1a52e0g9fjp574rdfjmn.mp4
Midjouny
social_ginneko._A_cinematic_live-action_style_motor_racing_scene_on__5249769a-f32f-4c4e-9418-f95779d26162_1.mp4
要素としては以下の通りです。
・自然光で撮影された映画のようなレースシーン。
・5台の異なるタイプ(シルエットフォーミュラ、GTカー、プロトタイプカーなど)が、
オーバルコースの急カーブを白煙を上げながら走り抜ける。
・カメラはコーナー内側の低い位置から手持ち風のトラッキングショットで追い、
コーナー出口でスムーズにパンして動きを自然に捉える。
・光は実写的な太陽光と柔らかな環境光、自然な影。
・過度な反射や3DCG的なテカリはなく、まるで実際のカメラで撮影したような質感。
・黄金色の夕日がほのかに差し込み、スモークや砂塵の中に光が拡散。
・カーブの縁では火花が散り、5台それぞれの形状や色が画面内で明確に映る。
・実際の物理法則に基づいた動きと、わずかなカメラの揺れで“ロケ撮影”のようなリアリズムを演出。
まずSoraですがシルエットフォーミュラやGTが指定されているのに、F1の様な車体になってしまっています。
また「黄金色の夕日がほのかに差し込み」成分が足りない気がします。
Midjounyの方はその部分はクリアされていますね。
次にアニメっぽい動画を作ってみましょう。
プロンプトは以下の通り。
a lively short-haired Japanese girl running through a bright meadow just beyond a forest, captured in motion as she passes by the side of the camera, not turning around, wearing a modern reinterpretation of ancient Japanese clothing, flowing fabrics fluttering in the wind, soft natural lighting, warm painterly Studio Ghibli style, gentle breeze moving the grass, cinematic composition, low-angle shot, 35mm lens depth of field, vibrant colors, anime background, highly detailed
生成された動画は以下になります。
Sora
20251105_1446_New Video_simple_compose_01k998v12xfmb9fjvxx9j6b4hq.mp4
Midjouny
social_ginneko._a_lively_short-haired_Japanese_girl_running_through__f5b9a2be-7152-4b33-a8a8-64c522cae88e_3.mp4
実は要素は以下の通りでした…
・森を抜けた草原で、ショートヘアの快活な日本人の少女がカメラに向かって一直線に走ってくる。
・彼女がカメラの横を駆け抜けると、カメラはスムーズに向きを変えて彼女の背中を追い、そのまま遠くへ走り去る姿をフォローする。
・ジブリ風のタッチで、柔らかな自然光、草がそよぐ風、温かく絵画的な色彩。
・古代日本の衣装を現代風にアレンジした軽やかな服が風になびき、
・映画的なカメラワークで動きと感情を捉える。
Sora、Midjouny、どちらも、キャラクターの行動もカメラワークも指示通りにはなっていません。
やはり余り詳細な指示は思い通りに生成してくれないのかもしれません。
何回かカメラと少女の動きの関係をプロンプトにしてみましたが、どれも同じ様な結果でした。
特にSoraに至ってはジブリの風のタッチと指定されているのに、アニメでさえありません。
これはもしかするとよく言われる「著作権問題」で内部的に抑制された結果かも知れません。
そう考えるとMidjounyの動画のタッチもジブリ風とは程遠いタッチなのが気になります。
結果として、動画生成対決は、どちらも詳細な指示をしようとすると理解度やポリシー的な抑制が働いて、思うように生成できない事が分かりました。
その中でもSoraのシルエットフォーミュラが理解できなかった点、ジブリ風という指定に対して実写の様な動画を生成した事を差し引いてMidjounyの辛勝と言った所です。
ただSoraに関しては現在Sora2が一部のプラットフォーム(iOS)で公開されており
今回の検証の環境ではSora2を検証できなかったので、Sora2で諸々進化しているかもしれません。
一般公開が待たれますね。
Midjounyの弱点としては基本的にIMG2MOV(画像から動画への生成)しかサポートしておらず、更に動画の最初のフレームになる画像が必須になっています。
こちらも今後のバージョンアップでTXT2MOV(文字から動画を生成)をサポートして欲しい所です。
以上でDALL-E(+Sora)とMidjounyの5本勝負が終わりました。
総合的な勝敗で言うと、模範的な結果になってしまいますがDALL-EもMidjounyも一長一短で適材適所で使うのが良いと思いました。
DALL-Eの良い所は、とにかく真面目!
余計な事をせず最小最短で画像を生成するのでプロンプトを修正するのも原因が明確になりやすく扱いやすいイメージです。
Midjounyはじゃじゃ馬!
とにかくエモーシャルな結果が欲しいならMidjounyになります。
指示した方向と明後日にいく事もありますが、嵌ればこちらが想定していた以上の結果を生成してくれます。
というわけで、Midjouny vs DALL-E 画像生成・五番勝負終了です。
3回に渡り長い間お付き合い頂いた皆様ありがとうございました。
また何か面白い技術などを見つけましたらご紹介して行こうと思います。
それではまた次の記事で!
/assets/images/543744/original/698edbe5-db67-4c0e-8fa0-447b6b87153c.jpeg?1472709375)