1. 序論:コンピュータビジョンにおけるパラダイムシフトの予兆

近年の自然言語処理(NLP)分野では、タスクごとに特化したモデルから、単一で多様なタスクをこなす大規模言語モデル(LLM)へと、劇的なパラダイムシフトが起きました。この変革は、ウェブスケールのデータで訓練された大規模な生成モデルというシンプルな要素から生まれました。本論文は、このNLPの歴史的転換を踏まえ、今日の生成ビデオモデルが同じ要素を備えていることに着目し、コンピュータビジョン分野でも同様の変革が起こりうるのかという核心的な問いを探求するものです。
本論文の目的は、「生成ビデオモデルは、LLMが汎用的な言語理解能力を発達させたのと同様に、汎用的な視覚理解能力を発達させるのか?」という問いに答えることにあります。著者らは、この問いに対して明確な肯定を示しており、その主要な貢献は以下の3点に要約されます。
- 62の定性的タスクと7の定量的タスクにわたり、18,384本ものビデオ生成を伴う広範な分析を通じ、最新のビデオモデル「Veo 3」が、明示的に訓練されていない多様なタスクをゼロショット(事前のファインチューニングなし)で解決できることを実証した点。
- 視覚世界の「知覚」「モデル化」「操作」能力に基づき、迷路解決などのタスクにおいて「Chain-of-Frames (CoF)」と名付けられた、初期段階の視覚的推論能力を発揮することを示した点。
- 旧モデルである「Veo 2」から「Veo 3」への一貫した大幅な性能向上を確認し、ビデオモデルの能力が極めて速いペースで進歩していることを明らかにした点。
本レビューでは、この画期的な研究の方法論、具体的な実験結果、そしてその結論と将来的な展望を順に概説していきます。
2. 提案手法:プロンプトによるゼロショット評価

本研究で採用された方法論は、そのシンプルさゆえに戦略的な重要性を持っています。著者らは意図的に「Veoをプロンプトする」というミニマリストなアプローチを選択しました。この methodological decision は、モデルが持つ創発的かつ汎用的なゼロショット能力を、タスク特化のファインチューニングから意図的に隔離するために不可欠です。これは、NLP分野で起きた「タスク特化型」から「基盤モデルへのプロンプティング」への移行を、コンピュータビジョン分野で再現しようとする明確な試みであり、「基盤モデル」仮説を検証するための重要な選択と言えます。
実験手法の具体的な詳細は以下の通りです。
- モデル: Google CloudのVertex AI APIを介して、公開されているビデオ生成モデル「Veo 3」(モデルID:
veo-3.0-generate-preview
)および比較対象として旧モデルの「Veo 2」が使用されました。 - 入力: 初期フレームとなる単一の画像と、実行させたいタスクを記述したテキスト指示(プロンプト)がモデルに与えられます。
- 出力: モデルは720p解像度、24 FPSで8秒間の16:9アスペクト比のビデオを生成します。
- プロンプト処理: 使用されたAPIにはLLMベースのプロンプトリライターが含まれており、システム全体が単一のブラックボックスとして扱われました。ただし、迷路解決などの主要な推論タスクにおいては、ビデオモデル自体の能力を検証するため、スタンドアロンのLLM(Gemini 2.5 Pro)では単独で解決が困難であることが確認されています。
このシンプルな手法を通じて、著者らはモデルが持つ潜在的な能力を広範にわたり探求しました。次のセクションでは、このアプローチによって明らかになったVeo 3の驚くべき質的能力について詳述します。
3. 定性的評価:視覚的能力の階層的分析

本論文の定性的評価は、ビデオモデルの能力を体系的に分析するために、視覚的知性を階層的な能力群に分解しています。この「知覚 → モデル化 → 操作 → 推論」というフレームワークは、単なる分類にとどまらず、視覚的知性を解体し、基礎的な能力がどのようにして複雑で創発的な推論能力へと積み上げられていくかを体系的に分析することを可能にします。これは、潜在的な基盤モデルの能力を評価する上で極めて有効なアプローチです。
3.1. 知覚 (Perception)
Veo 3は、従来は専門的な訓練を受けた個別のモデルを必要とした古典的なコンピュータビジョンタスクを、プロンプトだけでゼロショット実行できることが示されました。これには、エッジ検出、セグメンテーション、超解像、ノイズ除去、デブラー(ぼやけ補正)、キーポイント検出などが含まれます。
3.2. モデル化 (Modeling)
Veo 3は、物体の物理的特性や世界の法則を暗黙的にモデル化する能力を示しました。これは、単にピクセルを処理するだけでなく、世界の仕組みを理解し始めていることを示唆します。具体例として、物体の燃焼性や浮力、剛体・軟体の挙動のシミュレーション、物理的に妥当な順序でオブジェクトを取り除く「Visual Jenga」タスク、そして光の屈折・反射といった光学現象の再現が挙げられます。
3.3. 操作 (Manipulation)
知覚とモデル化の能力を基盤として、Veo 3は視覚世界を意味のある形で能動的に操作できます。これにより、高度な画像・ビデオ編集ツールとしての可能性が示唆されます。背景除去、スタイル転送、3D空間を考慮したオブジェクトのポーズ変更、さらには道具を使った器用な操作(瓶の蓋を開けるなど)のシミュレーションといったタスクをゼロショットで実行します。
3.4. 推論 (Reasoning)
知覚、モデル化、操作の能力を統合することで、Veo 3は初期段階の視覚的推論タスクに取り組むことができます。本論文は、このプロセスを理解するための主要な概念的貢献として「Chain-of-Frames (CoF)」を提唱しています。これは、LLMにおけるステップバイステップの思考連鎖「Chain-of-Thought (CoT)」との直接的なアナロジーです。ビデオの連続するフレームが視覚的な問題解決のための「思考のメモ帳(scratchpad)」として機能し、静止画モデルでは不可能だった時間と空間を越えた推論を可能にするという、重要な洞察です。迷路解決、グラフ探索、視覚的ルールの外挿などがその実例として示されています。
これらの多様な事例は、Veo 3が明示的には訓練されていない広範なタスクをゼロショットで解決する強力な創発的能力を持つことを示唆しています。次のセクションでは、これらの能力を数値的に検証します。
4. 定量的評価:性能の数値的検証

定性的な観察を補強するため、本研究では7つの主要タスクにおいてVeo 3の性能を数値的に評価し、Veo 2や他の専門モデル(Nano Banana、タスク特化SOTAなど)と比較しています。評価は、生成ビデオ全体で最も性能が良かった「ベストフレーム」と、ビデオの「最終フレーム」の2指標で行われ、モデルの最大潜在能力と実用上の予測可能性能の両方が示されています。
以下の表は、7つの定量的評価タスクの概要とVeo 3の主要な結果をまとめたものです。
カテゴリ | タスク | 評価指標 | Veo 3の主な結果 |
---|---|---|---|
知覚 | エッジ検出 | OIS | 0.77 (pass@10) (専門SOTAの0.90に迫る性能) |
知覚 | セグメンテーション | mIoU | 0.74 (pass@10) (Nano Bananaの0.73に匹敵) |
操作 | オブジェクト抽出 | Pass@k | 最大93% (pass@10) (Veo 2のチャンスレベルを大幅に超える) |
操作 | 画像編集 | 人間による評価 | Veo 2を大幅に上回る忠実度と精度 |
推論 | 迷路解決 (5×5) | Pass@k | 78% (pass@10) (Veo 2の14%から大幅に向上) |
推論 | 視覚的対称性 | Pass@k | 88% (pass@10) (Veo 2やNano Bananaを大きく上回る) |
推論 | 視覚的アナロジー | Pass@1 | 95%(色), 67%(サイズ変更) vs 19-29%(回転・反転) |
評価全体を通じて、いくつかの重要な傾向が明らかになりました。第一に、Veo 2からVeo 3への性能向上は一貫しており、その差は非常に大きいことが確認されました。第二に、複数回試行(k=10)で成功率が大幅に向上するタスクが多く、これは適切な解を複数回試行することで見つけられる可能性を示唆します。特筆すべきは、Veo 3のエッジマップが「グラウンドトゥルースよりも詳細である」という観察です。これはデータセットの注釈限界を示唆するものであり、単なるスコア以上の能力を示唆する重要な質的洞察です。最後に、ビデオモデルは時間的・空間的情報を同時に処理できるため、静止画像モデルよりも本質的に汎用的なフレームワークであることが示されました。
これらの定量的な証拠は、ビデオモデルの能力が急速に進化していることを裏付けており、次のセクションでは、これらの結果が持つ広範な意味合いについて議論します。
5. 考察と今後の展望

本研究の発見は、コンピュータビジョン分野の未来に広範な意味合いを持ちます。論文の核心的な発見、すなわち「ビデオモデルが多様なタスクをゼロショットで解決する創発的能力を持つ」ことは、この分野における基盤モデル(Foundation Model)の台頭を強く示唆しています。
性能は能力の下限値 (Performance is a lower bound)
本研究で報告された性能は、特定のプロンプトに依存しています。これは、モデルが持つ真の能力(コンピタンス)を完全には反映しておらず、あくまで特定条件下での性能(パフォーマンス)に過ぎません。したがって、報告された数値はモデルの能力の下限値と見なすべきであり、より洗練されたプロンプトエンジニアリングによって性能はさらに向上する可能性があると著者らは指摘しています。
コストと経済性 (Video generation is expensive, but…)
現在、ビデオ生成のコストはタスク特化型モデルの実行コストよりも高価です。しかし、LLMの推論コストが歴史的に見て急速に低下した経緯を踏まえれば、ビジョン分野でも同様の傾向が起こる可能性は高いと考えられます。汎用モデルの利便性とコスト低下が組み合わされば、経済的な観点からも特化型モデルを置き換える未来が現実味を帯びてきます。
多才だが専門家ではない? (Jack of many trades, master of few?)
現時点では、Veo 3の性能は多くのタスクで最先端の専門モデルには及びません。これはLLMの初期段階でも見られた現象です。しかし、著者らはこの差が将来的に縮まることについて楽観的な見通しを示しています。その強力な根拠として、Veo 2からVeo 3への飛躍的な性能向上が「互いに約半年以内」という極めて短期間で達成された事実や、複数回試行(pass@10)による性能向上に見られるように、推論時のスケーリング手法によって性能をさらに引き上げられる可能性を挙げています。
本論文が描く未来像は、NLPが経験した変革の再来です。ビデオモデルがその創発的なゼロショット能力によって、ビジョン分野における汎用基盤モデルとなり、「ビジョンのためのGPT-3モーメント」を引き起こす可能性があるのです。
この深い考察を経て、本レビューの最終的な結論をまとめます。
6. 結論

本論文『ビデオモデルはゼロショットの学習者であり推論者である』は、ビデオモデル、特にVeo 3が、単純な知覚から高度な視覚的推論に至るまで、広範な視覚タスクをゼロショットで解決する創発的な能力を持つことを説得力のある証拠と共に示しました。この能力は、単一のモデルがプロンプトだけで多様な問題に適応できることを意味し、コンピュータビジョンのあり方を根本から変える可能性を秘めています。
この発見は、コンピュータビジョン分野が、個別のタスクごとに最適化されたモデルが乱立する時代から、LLMがNLPにもたらしたような、単一の汎用基盤モデルが主流となる新時代へと移行しつつあることを示す強力な証拠です。本研究は、まさにそのパラダイムシフトの始まりを告げる重要なマイルストーンと言えるでしょう。
論文情報
- 論文名: Video models are zero-shot learners and reasoners
- 著者: Thaddäus Wiedemer, et al. (Google DeepMind)
- 出典: arXiv:2509.20328v2
——————————————————————————–