Gemini Omniは何が"新しい"のか — ワールドモデルという発想

Google I/O 2026で発表されたGemini Omni。タイムラインを眺めていると「また動画生成AIか」と流してしまいそうになりますが、今回はそれで済ませると本質を見落としてしまいます。
これまでGoogleには「Veo」という動画専用のAIがありました。
▪️以前の解説記事

それをあえて畳んで、Gemini本体に動画生成機能を統合してきたのが今回のニュースです。
しかも自分たちのモデルを「動画生成AI」ではなく「ワールドモデル(世界モデル)」と呼んでいます。この言葉選びの裏に、今回のリリースの核心があります。
順番に解きほぐしていきます。
Gemini Omniとは何か
Gemini Omniは、Google I/O 2026で発表された新しいAIモデルのファミリーです。
第一弾として「Gemini Omni Flash」がリリースされ、Google AI Plus/Pro/Ultraの加入者、YouTube Shorts、そしてGoogleの動画制作ツールFlowで使えるようになりました。
開発者向けのAPIは数週間後に公開予定とのことです。
何ができるかというと、テキスト・画像・音声・動画を好きな組み合わせで入力して、そこから動画を作ったり編集したりできます。
たとえば、自分で描いたラフスケッチと、「夕暮れの東京、雨上がり」というテキストと、自分の声の録音を入力する。すると、それらをまとめて一本の動画にしてくれる、というイメージです。
Flash版は1本あたり10秒までという制限がついています。
ただ、GoogleのDeepMindで製品管理を担当するニコール・ブリヒトバ氏は「これはモデルの限界ではなく、展開のための判断」とはっきり言っています。需要やサーバーの負荷を見ながら、徐々に長くしていく方針のようです。
Veoとの統合が意味すること
これまでGoogleの生成AIは、役割がきれいに分かれていました。
動画はVeo、画像はImagen、文章と推論はGemini。それぞれが別々のモデルとして開発されてきました。
Omniは、この構造を壊しています。
正確に言えば、Veoが消えたわけではありません。
ただ「Googleの最新動画モデル」というポジションは、はっきりGemini本体に移りました。
これは単なるブランド統合ではなく、動画を作る機能がGeminiの「考える力」「世界の知識」とつながったことを意味します。
たとえば「江戸時代の長屋で雨が降っている動画」を頼んだとします。
今までの動画生成AIは、江戸っぽい見た目を再現しようとします。
一方Omniは、Geminiが知っている江戸時代の知識(建物の造り、人々の暮らし、当時の風景の描かれ方)を引っ張り出しながら動画を作ります。
Googleはこれを「any-to-any」、つまり「どんな入力からでも、どんな出力でも作れるシステム」への第一歩と位置づけています。
「ワールドモデル」という位置づけ
ここが今回のリリースで一番重要な部分です。
Googleは公式ブログでも発表の場でも、Omniのことを「ワールドモデル(world model)」と呼んでいます。動画生成モデルではなく、世界モデル。この言葉選びは意図的です。
何が違うのでしょうか。
これまでの動画生成AI(SoraやVeoの初期世代も含む)は、大量の動画データから「それっぽく見える映像のつなぎ方」を学習してきました。
だから出力される動画は、見た目は自然ですが、物理的にあり得ないことが平気で起こります。
たとえばコップが落ちた瞬間に消えてしまったり、人が歩いている向きが急に変わったり、影の落ち方が光の向きと矛盾していたり。
一見きれいでも、よく見るとおかしい。これが従来の動画AIの限界でした。
ワールドモデルが目指しているのは、その一歩先です。
映像の表面的なパターンを真似るのではなく、世界の振る舞いそのものをAIの中に持たせる。
重力、運動エネルギー、水や煙の流れ方。物が落ちれば加速して、ぶつかれば変形して、水なら波打って、ガラスなら割れる。
こうした原因と結果の関係を「予測」した上で、動画を組み立てていきます。
Google DeepMindのCTOコーレイ・カブクチュオール氏は、Omniを「あらゆる入力から、あらゆるものを作れる」モデルと表現しています。
生成の見た目の美しさではなく、世界の理解度で勝負しようとしているわけです。
でも、なぜこの方向が重要なのでしょうか。
動画生成の精度競争は、ある時点から「見た目の美しさ」だけでは差がつかなくなります。
SoraもVeoもOmniも、止め絵で切り出せばどれも十分きれいに見えます。
次の競争軸は、長い動画になったとき・複雑な物理現象が絡んだとき・キャラクターや背景の一貫性を保つときに、ちゃんと破綻しないかどうか。
ここを根本から解決する手段が、ワールドモデル化なのです。
実はロボティクスや自動運転の分野では、数年前から「世界モデルを持ったAI」という考え方が研究されてきました。
Omniは、それを動画生成という身近な領域に持ち込んだ最初の本格的なプロダクトと言えます。
マルチモーダル入力でできること
Omniのもう一つの売りが、複数の入力を同時に受け取れる点です。
画像でキャラクターのデザインを指定して、テキストで動きを書いて、音声で声を与える。
これらを別々のステップで処理するのではなく、全部まとめて一つのリクエストにできます。
出来上がった動画では、指定したキャラクターが指定した動きをして、指定した声で喋っている、という状態になります。
音声入力については、今のところ"人の声"のみがサポートされています。
BGMや環境音をリファレンスとして渡すことはまだできません。これは今後拡張されていく予定です。
特に面白いのが、自分の声からデジタル分身(アバター)を作る機能。
自分の声を入力すると、その声の主に見えるアバターを生成して、そのアバターに好きなセリフを喋らせた動画を作れます。
そして編集体験そのものも変わってきています。「会話型編集」と呼ばれているこの方式では、出来上がった動画に対して「もう少しカメラを引いて」「夕焼けにして」「主人公の表情を笑顔に」と連続で指示を出せます。
重要なのは、こうした指示を重ねていっても、キャラクターの顔・服装・背景の整合性が崩れないこと。タイムラインを操作する従来の編集ツールとは、根本的に違うやり方です。
Googleが出さなかったもの
リリースには載っていないけれど、Googleが意図的に「今は出さない」と判断している部分も読み取れます。
上位版の「Omni Pro」は計画として発表されていますが、リリース時期は未定です。
「FlashからはっきりとPro版だと言える性能差が出せるようになったら」とブリヒトバ氏は語っています。
これは慎重というより、サーバーの負荷と安全性のテストのバランスを取っているように見えます。
API公開も「数週間後」と幅を持たせた表現で、企業向けの本格提供はもう少し先です。
外部の開発者がOmniを使った製品を作れるようになるまでには、もうしばらく時間がかかりそうです。
そしてもう一点。
実在の人物の動画を生成する機能は、現時点でかなり制限されています。これは技術的に難しいからというより、ディープフェイク対策としての判断でしょう。
リスクの高い機能ほど後回しにする、というGoogleの姿勢が見えます。
私たちの仕事への影響
最後に、これがクリエイター側・開発者側にとって何を意味するかをお話しします。
動画編集ツールという領域は、これから数年で大きく形を変えていきます。
タイムラインを操作する従来の操作方法は残り続けるでしょうが、その上に「会話で編集する」というレイヤーが乗ってきます。
PremiereやFinal Cut Proといった既存ツールがどう反応するかは見ものです。
開発者にとっては、APIが開いた瞬間が勝負どころになります。
ワールドモデルをAPI経由で呼べるようになれば、「シナリオを書く→絵コンテを作る→動画を生成する→声を当てる」という一連の流れを、コードで自動化できるようになります。
Claude Codeのような開発エージェントから動画生成のワークフローを呼び出す未来は、もう数ヶ月単位で見える距離にあります。
そして長い目で見ると、「動画を作る」という行為そのものが、撮影や編集ではなく世界をシミュレーションして、その中から欲しい場面を切り出す行為に変わっていく可能性があります。Omniはその入り口に立つモデルです。
まとめ
Gemini Omniはきれいな動画を作るAIではありません。
世界を理解した上で動画を作るAIを目指しています。
動画生成という機能がGemini本体に吸収されたこと。
ワールドモデルという言葉が選ばれたこと。物理の理解と因果関係の予測が前面に出てきたこと。
これらはバラバラのニュースではなく、一つの方向性を指し示しています。
次の競争軸は、生成物の美しさではありません。世界をどれだけ正確にAIの中に持てるか。Omniはその競争のスタートを告げた一発だと言えます。
※ 本記事の内容は、執筆時点での情報に基づいています。最新の情報と異なる場合がございますので、あらかじめご了承ください。 また、記載されている内容は一般的な情報提供を目的としており、特定の状況に対する専門的なアドバイスではありません。 ご利用にあたっては、必要に応じて専門家にご相談ください。