Visual Reasoning:動画モデルはゼロショットの学習者かつ推論者
1 / 15オープニング:動画モデルは、LLMが辿った進化の道を歩み始めている
キーメッセージ
動画モデルは、LLMが辿った進化の道を歩み始めている
LLMの歴史
- GPT-2→GPT-3→emergent ability(算数・推論・コード)
- スケールアップに伴う質的飛躍
Videoモデル
- 同じく「規模×汎化×推論」傾向が立ち上がりつつある(Veo 2→3)
- ゼロショットでの汎用性が動画にも出現
本日の流れ 能力紹介→仕組み→未来→課題→まとめ