プレゼンテーションスライド

Visual Reasoning:動画モデルはゼロショットの学習者かつ推論者

2025年10月3日

Visual Reasoning:動画モデルはゼロショットの学習者かつ推論者

1 / 15

オープニング:動画モデルは、LLMが辿った進化の道を歩み始めている

キーメッセージ

動画モデルは、LLMが辿った進化の道を歩み始めている

LLMの歴史

  • GPT-2→GPT-3→emergent ability(算数・推論・コード)
  • スケールアップに伴う質的飛躍

Videoモデル

  • 同じく「規模×汎化×推論」傾向が立ち上がりつつある(Veo 2→3)
  • ゼロショットでの汎用性が動画にも出現

本日の流れ 能力紹介→仕組み→未来→課題→まとめ