脳は「全部見ていない」のにうまくいく──「ジャストインタイム」で世界を理解する人間の認知戦略

Seo Seungchul
2月23日
読了時間: 15分

更新日：2月23日

シリーズ: 論文渉猟

◆今回の論文：Tony Chen et al., "'Just in Time' World Modeling Supports Human Planning and Reasoning" (arXiv, 2026年1月20日）

概要：確率的なメンタルシミュレーションは人間の推論・計画・予測において重要な役割を果たすとされるが、複雑な環境でのシミュレーションは人間の認知容量の限界を超える要求を課す。本論文では、シミュレーション、視覚探索、表象の更新を緊密に連携させる「ジャストインタイム（JIT）」フレームワークを提案。このモデルは、オブジェクトのごく一部しか符号化しないにもかかわらず、高い有用性を持つ予測を実現する。グリッドワールドのナビゲーション課題と物理的推論課題において、複数の行動指標でJITモデルが人間の行動をよく説明することを示した。

私たちは日常的に、複雑な環境の中で計画を立て、予測し、行動しています。たとえば、雑然としたリビングを横切ってソファまで歩くとき、落ちているおもちゃを避け、テーブルの角に注意を払いながら、スムーズに目的地へ到達します。この一見なんでもない行為の裏で、脳は何をしているのでしょうか。

認知科学では長らく、こうした計画や推論には「メンタルシミュレーション」、つまり頭の中で状況を再現しながら未来を予測する能力が関わっていると考えられてきました。しかし、ここには大きな謎があります。現実の環境には膨大な情報があり、人間の記憶容量（ワーキングメモリ）には厳しい制約があるのです。では、私たちはどうやって、この限られた認知資源で複雑な世界をうまく扱っているのでしょうか。

MITの研究チームが発表した新しい論文は、この問いに対して興味深い答えを提示しています。彼らが提案する「ジャストインタイム（JIT）」フレームワークは、人間の脳が環境の「すべて」を表象するのではなく、シミュレーションの進行に合わせて「必要になったものだけ」をその都度取り込んでいく、という戦略をとっていることを示唆しています。富良野とPhronaの対話を通じて、この発見が私たちの認知や、さらにはAI研究にどんな意味を持つのか、探ってみましょう。

「全部は見ていない」という発見

富良野：この論文、読んでみると当たり前のようで、実はすごく面白い話だと思うんです。人間は環境の「すべて」を頭に入れて計画しているわけじゃない、という。

Phrona：ええ、直感的にはそうですよね。部屋を歩くとき、壁の模様とか棚の上の置物とか、いちいち意識していない。でもそれを認知科学として説明しようとすると、途端に難しくなる。

富良野：そうなんです。従来の理論だと、まず環境全体の「縮約表象」を作って、それからシミュレーションを走らせる、という順番だった。つまり、事前に「何が重要か」を判断してから考え始める。

Phrona：でもそれって、事前に何が重要かを知るために、結局シミュレーションを回さないといけないという矛盾を抱えていますよね。

富良野：まさにそこです。この論文のJITモデルは、その矛盾を解消している。シミュレーションを走らせながら、「あ、ここでこのオブジェクトにぶつかりそうだ」と気づいた時点で、そのオブジェクトを初めて表象に取り込む。

Phrona：製造業の「ジャストインタイム生産」と同じ発想ですね。在庫を抱え込まず、必要なときに必要なものだけを調達する。脳も認知資源という「倉庫」を節約している。

二つの実験が示すもの

富良野：論文では二つの実験領域でJITモデルを検証しています。一つはグリッドワールド、いわゆる迷路を解くタスク。もう一つはボールが障害物を通り抜けて落ちる軌道を予測する物理的推論タスク。

Phrona：迷路の方は、参加者がスタート地点からゴールまでの経路を計画するんですよね。興味深いのは、マスクされたオブジェクトを自分でクリックして「見る」ことができる設計になっていること。

富良野：ええ、だから「どこを見たか」が記録される。そして実験後に、どのオブジェクトを覚えているかの記憶テストも行う。JITモデルの予測では、シミュレーションの軌道上で「ぶつかりそうになった」オブジェクトほどよく記憶されるはず。

Phrona：実際にそうなったわけですね。従来の「価値ガイド構成」モデル、つまり事前に重要度を計算するモデルよりも、JITの方が人間の記憶パターンをよく説明した。

富良野：物理的推論の方も同様で、ボールの軌道がそのオブジェクトに「どれくらいの頻度で接触するか」という確率的な指標が、記憶の強さと相関していた。

Phrona：単に「結果を変えうる重要なオブジェクト」ではなく、「シミュレーションの過程で実際に関わったオブジェクト」が記憶に残る。この違いは微妙だけど、認知のメカニズムとしては大きな違いですね。

ワーキングメモリの制約と「賢い手抜き」

富良野：ここで背景として重要なのが、人間のワーキングメモリの制約です。よく言われる「7±2」とか「4項目程度」という限界。意識的に保持できる情報量はごく限られている。

Phrona：ミラーの「マジカルナンバー7」は有名ですね。でも最近の研究だと、もっと厳しくて3〜4項目という説もある。

富良野：そうなんです。で、複雑な環境には何十、何百というオブジェクトがある。全部を表象することは物理的に不可能。だから何らかの「賢い手抜き」が必要になる。

Phrona：JITモデルの美しいところは、その手抜きが「事後的に合理的に見える」だけでなく、プロセス自体が効率的だということですよね。事前に最適な構成を探索する必要がない。

富良野：しかも、結果として構成される表象は、事前最適化モデルよりもオブジェクト数が少ないのに、予測や計画の精度は落ちない。これは直感に反するようで、実は理にかなっている。

Phrona：必要なものだけを必要なときに、という原則が徹底されているからですね。無駄な在庫を持たない分、倉庫の容量を有効に使える。

シミュレーションと視覚探索の「織り込み」

富良野：JITモデルの核心は、シミュレーションと視覚探索と表象の更新が、緊密に連携しながら進むことなんです。まずシミュレーションを一歩進める。次に、その状態から「この先何にぶつかりそうか」を視覚的に探索する。そこで見つかったオブジェクトを表象に加える。この繰り返し。

Phrona：人間の目の動きとも整合的ですよね。物理的な予測課題だと、人はボールの予想軌道を目で追っていることが知られている。

富良野：そうなんです。論文でも引用されていますが、人は心的シミュレーションの軌跡に沿って視線を動かす傾向がある。つまり、「頭の中で動かしている対象」を見ている。その過程で、ぶつかりそうなものが視野に入ってくる。

Phrona：外界を「外部記憶」として使っている、という言い方もできますね。全部を頭に入れておく必要がないのは、いつでも見直せるから。

富良野：O'Regan and Noëの「世界が外部記憶である」という議論と通じるところがあります。必要な情報は外にあるのだから、内部に全部コピーする必要はない。

Phrona：でも、外にあるものを「いつ」「どこを」見るか、という問題は残る。そこをシミュレーションがガイドしているわけですね。

「反事実的に重要」と「実際に接触した」の違い

富良野：論文で特に興味深いのは、実験2Bの設計です。JITモデルと従来のVGC（価値ガイド構成）モデルを明確に区別するために、二種類の特殊なオブジェクトを用意している。

Phrona：「反事実的に関連する」オブジェクトと「反事実的に無関連な」オブジェクトですね。ちょっとややこしい。

富良野：具体的に言うと、反事実的に関連するオブジェクトは、ボールが半分くらいの確率でしか当たらないけど、当たった場合は結果を大きく変える。一方、反事実的に無関連なオブジェクトは、ほぼ確実にボールが当たるけど、当たっても当たらなくても最終的な着地点は変わらない。

Phrona：VGCモデルの観点だと、前者は重要で後者は重要でない、ということになる。結果に差をもたらすかどうかが基準だから。

富良野：でもJITモデルでは逆の予測になる。シミュレーションの中で実際に接触したかどうかが記憶の強さを決めるので、必ず当たるオブジェクトの方がよく記憶されるはず。

Phrona：そして実験の結果は、JITの予測と一致した。

富良野：ええ、人間の記憶パターンはJITの予測とよく相関していて、VGCは逆相関だった。これはかなり決定的な証拠だと思います。

認知の「経済学」としての解釈

Phrona：この研究、認知を一種の「資源配分問題」として捉えているのが面白いですね。有限な認知資源をどう使うか、という経済学的な発想。

富良野：資源合理的分析、というフレームワークですね。Liederらの仕事に代表される。理想的な合理性ではなく、制約のある中での最適化を考える。

Phrona：でもJITモデルは、その最適化を「事前に」行わない点が新しい。最適な構成を探すために多くの計算を費やすのではなく、走りながら必要なものを拾っていく。

富良野：そこがパラドックスの解消になっている。従来のアプローチだと、「どの構成が最適か」を評価するために、結局すべてのオブジェクトを含めたシミュレーションを走らせないといけない。それでは本末転倒。

Phrona：計画を立てるために計画が必要、という無限後退。

富良野：JITはその無限後退を断ち切っている。完璧な計画を立ててから実行するのではなく、実行しながら計画を修正していく。ある意味、人生の歩み方にも似ているかもしれません。

計画とは「走りながら考える」こと

Phrona：この研究が示唆しているのは、計画という行為の本質についてかもしれませんね。私たちは計画を「先に全部考えてから実行する」ものだと思いがちだけど。

富良野：実際には、計画と実行は入り混じっている。迷路を解くとき、最初から最適解が見えているわけじゃない。一歩進んでみて、壁にぶつかって、そこで初めてその壁の存在を真剣に考慮する。

Phrona：それって、ある種の「試行錯誤」とも違いますよね。完全にランダムに動いているわけじゃなくて、シミュレーションが先行している。

富良野：そうなんです。頭の中では一歩先を見ている。でも、全体を見渡しているわけではない。局所的な先読みと全体的な方向感覚の組み合わせ、というか。

Phrona：チェスの名人が「読む手の深さ」について語るとき、彼らは実は限られた手しか読んでいない、という話を思い出しました。でもその「限られた手」の選び方が優れている。

富良野：まさにそれです。JITモデルは、「どこを見るか」の選択自体がシミュレーションによってガイドされている。だから無駄な探索を減らせる。

AIへの含意

Phrona：論文の最後の方で、ロボット工学への応用可能性にも触れていましたね。

富良野：現代のロボット計画アルゴリズムは、散らかった環境で計算コストが爆発する問題を抱えている。無関係なオブジェクトが多いと、考慮すべき可能性が膨大になる。

Phrona：JITのような漸進的なアプローチは、その分岐係数を下げる方法として使えるかもしれない。

富良野：もう一つ興味深いのは、この研究がAIのワールドモデル研究とも接点を持つことです。最近、大規模言語モデルや動画生成モデルに「世界モデル」を持たせようという研究が盛んですが。

Phrona：ああ、LeCunが提唱しているような話ですね。AIが世界の仕組みを内部的にモデル化して、それを使って推論や計画を行う。

富良野：でも、その世界モデルをどう効率的に構築・利用するかは未解決の問題が多い。人間の認知を研究することで、そのヒントが得られるかもしれない。

Phrona：人間の脳は、完璧な世界モデルを持っているわけではないけれど、うまく機能している。その「うまくいっている理由」を理解することが、AIにとっても重要。

富良野：完全な表象を目指すのではなく、必要なときに必要な部分だけを動的に構築する。そういう設計思想は、スケーラブルなAIシステムにとって示唆的だと思います。

限界と今後の展望

Phrona：ただ、論文自体もいくつかの限界を認めていますよね。

富良野：ええ、実験で使われた課題は比較的シンプルで、静的な表示、単一の追跡対象、数個のオブジェクト、という条件でした。現実世界はもっと複雑で、動的で、対象も複数ある。

Phrona：それに、課題の設定が明確で、何に注目すべきかが最初からわかっている。日常生活では、何が重要かを判断すること自体が難しい場面も多い。

富良野：そうですね。将来的には、より複雑な環境での検証や、事前知識とJITの統合などが課題になるでしょう。慣れた場所を歩くときと、初めての場所を歩くときでは、たぶん認知の仕方も違う。

Phrona：学習された先読みと、その場での構築のバランス。

富良野：論文では、JITと価値ガイド構成の「いいとこ取り」ができる可能性も示唆しています。完全に事前計算するのでもなく、完全にその場限りでもなく。

Phrona：人間の認知は、たぶんそのハイブリッドなのでしょうね。

世界をどう「見る」か

富良野：あともう一つ、この研究で僕が面白いと思ったのは、「見る」という行為の能動性についてです。

Phrona：受動的に視覚情報を受け取っているのではなく、何を見るかを選んでいる。

富良野：そうです。そしてその選択は、現在の思考プロセスによってガイドされている。シミュレーションが視覚探索を導き、視覚探索がシミュレーションを更新する。この循環が認知の核心にある。

Phrona：世界は膨大な情報に満ちているけれど、私たちは常にその一部しか見ていない。でも、その「一部」の選び方が賢いから、うまくいっている。

富良野：「全部見ていない」のに「うまくいく」。それは怠惰ではなくて、知性の一形態なのかもしれません。

Phrona：知らないことを知っている、というか。何を知る必要があるかを知っている。

富良野：メタ認知的な能力ですね。JITモデルは、その能力がどのようなメカニズムで実現されうるかの、一つの具体的な提案と言えるでしょう。

ポイント整理

メンタルシミュレーションの計算論的課題
- 人間の推論や計画は心的シミュレーションに依存すると考えられているが、複雑な環境をシミュレートするには膨大な情報処理が必要であり、ワーキングメモリの容量制限と矛盾する。従来の理論では、事前に「重要なもの」だけを選んだ簡略化された表象（構成）を作ってからシミュレーションを行うとされていた。
従来理論のパラドックス
- 最適な構成を見つけるためには、候補となる構成それぞれの有用性を評価する必要があり、その評価には結局すべてのオブジェクトを含めたシミュレーションが必要になる。これは「構成を決めるためにシミュレーションが必要だが、シミュレーションには構成が必要」という循環を生む。
JITモデルの提案:
- 「ジャストインタイム」フレームワークは、シミュレーション・視覚探索・表象更新を緊密に織り込みながら進める。シミュレーションを一歩進め、その状態から「次に何と衝突しそうか」を視覚的に探索し、発見されたオブジェクトをその場で表象に追加する。
検証に使われた二つの課題領域
- グリッドワールドのナビゲーション課題（迷路を解く）と、物理的推論課題（落下するボールの軌道を予測する）という、異なる認知領域で同じフレームワークの有効性を検証した。
計画課題での結果
- 参加者がどのオブジェクトを見たか（視線追跡的な指標）や、どのオブジェクトを覚えていたか（記憶テスト）において、JITモデルは従来のVGC（価値ガイド構成）モデルよりも人間の行動をよく予測した。
物理的推論課題での結果
- ボールの軌道予測後の記憶テストにおいて、JITモデルは人間の記憶パターンと高い相関を示した（r=0.87）。シミュレーション中に実際に「接触」したオブジェクトほどよく記憶されていた。
JITとVGCを区別する決定的実験
- 「反事実的に関連する」オブジェクト（結果に影響するが接触確率は中程度）と「反事実的に無関連な」オブジェクト（必ず接触するが結果を変えない）を用いた実験で、人間の記憶はJITの予測と一致し、VGCの予測とは逆相関だった。
効率性の分析
- シミュレーション分析により、JITモデルは計算コストと表象コストのトレードオフにおいて、多くのパラメータ領域で最も効率的であることが示された。また、JITは平均してVGCより少ないオブジェクト数で同等の性能を達成した。
外界を「外部記憶」として利用
- JITモデルは、視覚的に利用可能な環境を外部記憶として活用する。すべてを内部に記憶する必要がなく、必要に応じて環境を「見直す」ことができる。
記憶の減衰
- JITモデルには記憶減衰パラメータが組み込まれており、以前は関連していたが現在は使われていないオブジェクトは確率的に忘却される。これによりワーキングメモリの効率的な利用が実現される。
ロボット工学への応用可能性
- 散らかった環境での計画アルゴリズムが直面する計算量の問題に対して、JIT的なアプローチが表象の複雑さを削減する方法として示唆される。
限界と今後の課題
- 実験は静的で比較的シンプルな環境に限られており、より複雑で動的な現実環境、事前知識との統合、タスク構造が明確でない状況への拡張が今後の課題として挙げられている。

キーワード解説

【メンタルシミュレーション（Mental Simulation）】

頭の中で状況を再現し、行動の結果や物事の展開を予測する認知プロセス。計画、推論、予測の基盤とされる。

【ワーキングメモリ（Working Memory）】

情報を一時的に保持しながら処理するための認知システム。容量には厳しい制限があり、一般に3〜4項目程度しか同時に保持できない。

【構成/コンストラアル（Construal）】

環境の簡略化された心的表象。不要な細部を省略し、目的に関連する要素だけを含む。

【ジャストインタイム（Just-in-Time）】

もともとは製造業で「必要なものを必要なときに必要な量だけ」調達する生産方式。本論文では、認知表象を事前に作るのではなく、シミュレーションの進行に応じて動的に構築するアプローチを指す。

【価値ガイド構成（Value-Guided Construal / VGC）】

オブジェクトを表象に含めることの「価値」と表象の「コスト」をトレードオフさせ、事前に最適な構成を求めるモデル。

【資源合理的分析（Resource-Rational Analysis）】

認知を無限の計算資源を持つ理想的エージェントとしてではなく、制約のある資源の中で最適化を行うエージェントとしてモデル化するアプローチ。

【A*探索（A-star Search）】

経路探索アルゴリズムの一種。現在地からの距離と目標までの推定距離を組み合わせて効率的に最適経路を見つける。本論文では確率的な変種が使用されている。

【視覚的先読み（Visual Lookahead）】

シミュレーションの現在状態から、次のステップで関連しそうなオブジェクトを視覚的に探索するプロセス。

【反事実的推論（Counterfactual Reasoning）】

「もし〜だったら」という仮定のもとで考える推論。ある要素がなかったら結果がどう変わっていたかを考える。

【ワールドモデル（World Model）】

環境の構造や動態についての内部モデル。AI研究では、エージェントが環境を理解し予測するために構築する表象として注目されている。