AI Grokも認めたGrok Imagineのほぼ限界を極めた動画がこれ

Grok Imagineには出来ないけど他の動画生成AIに出来ること。

上図においてGrok Imagine が出来るのは上からひとつ目と二つ目と最後のOutputだけです。
Grok Imagine は、
まずポーズや構図を厳密に指定できない。
顔やキャラクターは常にドリフトしてしまう。
人間からアーマーへの変形は不得意。
音楽やボイスにキャラの話し方を合わせるのも不得意。
一回の動画生成においてキャラが最初から最後まで日本語を明瞭に話せることは稀。
会話が不明瞭になりがち。
キャラが常に正面を向きたがるので、本格的な格闘シーン等のアクションムービーが苦手。

Grok Imagine の良いところは簡単だということ。
写真一枚アップして、日本語で数行あるいは数個の単語をプロンプトとしてAIに渡せば高クオリティーのAI生成動画が出来る。

Grok Imagine のAIはとても気が利いているので、何も言わなくても、ユーザーが望んでいるだろうと思われる生成動画になる。勝手にいろいろと気をまわして良い生成動画になるように補完してくれるのだ。

このAIによる気を利かした補完が、ユーザーがきっちりとすべて指定した完璧な動画を作ろうとすると大きな壁となる。
そもそもGrok Imagineはそういう風には出来ていない。
万人向けに皆が簡単に楽しめるように出来ている。

上の動画をGrokに見せて、これがGrok Imagineのほぼ限界だよね？と聞いたところ、Grokもそうだと認めました。プロンプトをつけ足したり改良すれば今回アップした動画よりもっといいものは作れるでしょう。でもそれは人間側の話であって、AIによる動画生成機能そのものとはまた別の話です。