TRMとHRM:極小再帰モデルの台頭と階層推論の再検証
1 / 16オープニング:TRM概要
本セクションでは、HRM→TRMの流れを定義・前提・主要主張で整理し、本講演の設計判断(何を褒め、どこを疑うか)を明確にする。
前提
- 問題設定:Sudoku-Extreme、Maze-Hard、ARC-AGIなど、構造推論・探索・規則外挿を要する非言語タスク。
- 既存手法の限界:LLMのChain-of-Thought(CoT)は推論時計算量(TTC)が増大し、言語依存で遅延・コストが高い。内部思考を明示出力せずとも、ネットワーク内部で逐次推論を実現できれば高速で再現性が高い。
HRMの要旨
- 二つのRNNを異なる時間スケールで回す:H(低頻度・抽象計画)とL(高頻度・詳細計算)。1パスで逐次推論を実装。27Mパラメータ・~1kサンプルでSudoku/Maze/ARCで強力な成績。
- スライドにおける位置付け:CoTの欠点(遅い/不安定/言語依存)に対する代替として提示。
TRMの要旨
- 階層を前提にせず、必要最小の状態 x,y,z を単一の極小ネットで反復更新。7M級・2層MLP中心・Attention-Free志向で「Less is More」を主張。
- スライドにおける位置付け:生物学的比喩に過度依存しない構成、1-step近似やACTのコストに対する実装者視点の簡素化。
本ドキュメントの狙い
- HRM/TRMの設計・学習・評価・限界・実装ノウハウを、研究者と実装者の双方が使える解像度に分解する。