「考えすぎ」ないAI――「ファスト思考とスロー思考」を自分で使い分けるAIエージェントの登場

Seo Seungchul
4月12日
読了時間: 13分

シリーズ: 論文渉猟

◆今回の論文：Ruihan Yang et al., "Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents" (arXiv, 2026年2月13日）

概要：言語モデルのみに依存する基盤モデルの限界を指摘し、映像・画像・動画を統合した多モーダル事前学習の設計空間を体系的に検証した論文。視覚と言語データは互いに補完し合い、かつ単一の表現エンコーダーで視覚の理解と生成の両方をこなせることを示した。また、大規模な映像データから一般的な学習を行うだけで「世界モデル」的な能力が自然に創発することも報告。

AIが「状況に応じて考えの深さを自分で変える」——そんな研究が登場しました。人間だって、友人へのメッセージを送るときと、大事な契約書を読み込むときでは、頭の使い方がまったく違うはずです。でも今のAIは、どんな問いに対してもほぼ同じ深さで思考していました。簡単な一歩には直感で十分なのに、毎回じっくり考え込んでしまう——まるで、コンビニでの買い物にも経営会議並みの熟慮を費やすようなものです。

この論文が提案するのは、その非効率を解消するフレームワーク「CogRouter（コグルーター）」。人間の認知科学の知見をベースに、AIが「いまここで、どのくらい深く考えるべきか」をステップごとに判断できるよう訓練する仕組みです。Phronaと富良野が、この研究を入り口に、「考えるとはなにか」「熟達した判断とはどんなものか」という問いをゆっくり掘り下げていきます。

「全力」が必ずしもいいとは限らない

富良野：この論文、AIエージェントの「考えすぎ問題」を扱ってるんですよ。

Phrona：考えすぎ、ですか。人間の話じゃなくて、AIが？

富良野：そうなんですよ、まさにそこが面白くて。今のAIって、どんなタスクに対しても、だいたい同じ深さで推論しようとするんです。簡単な作業でも、複雑な判断でも、同じくらいのリソースを注ぎ込む。

Phrona：それって、別に悪いことじゃないんじゃないですか？丁寧に考えるのは良いことかなと思って。

富良野：直感的にはそうなんですけど、「どこまで考えるか」のコストって馬鹿にできなくて。例えば、料理のレシピ通りに次の手順を実行するだけの場面で、長々と戦略的に考え始めたら、それはただの無駄でしょ。

Phrona：ああ——確かに。「今日の夕飯何にしようか」の選択肢を出すのに、国際情勢を分析し始めても困りますね。

富良野：そういう融通の無さを、論文ではcognitive rigidity（認知的硬直）と呼んでいて、AIエージェント全般が抱える問題だというんです。

Phrona：それを解消しようとした研究なんですね。どういうアプローチなんでしょう。

富良野：CogRouterっていうフレームワークで。一言で言うと、「この場面では、どのくらい深く考えるべきか」を、AIが自分で判断できるように訓練するんです。

Phrona：それ、けっこうメタ認知的じゃないですか。「考えることについて考える」能力を持たせるっていう。

富良野：まさに。で、その「考えの深さ」を4段階で設計しているんですが、これが面白くて。ベースはACT-Rっていう、認知科学の古典的な人間の記憶・思考モデルなんです。

人間の「考え方」を4段階で切り出す

Phrona：ACT-Rって初めて聞きました。どんなモデルですか？

富良野：「Adaptive Control of Thought-Rational」の略で、1970年代にアンダーソンという心理学者が提唱したものです。人間がどのように知識を活用して思考するかを説明するモデルで、記憶の引き出し方とか、パターン認識とか、複数の情報の統合とか、そういう認知のメカニズムを体系化したものです。

Phrona：あ、そういえばこの論文タイトル、カーネマンの「ファスト＆スロー」を意識したんでしょうね。

富良野：そうなんです。カーネマンは人間の思考を「システム1（速い・直感的）」と「システム2（遅い・熟慮的）」の2層で説明した。この論文はその構図を引き継ぎながら、2層では粗すぎるとして4段階に細分化して、しかも場面ごとに動的に切り替えられるようにした、というのが研究のポジショニングとして読めます。

Phrona：カーネマンが「人間はこういう使い分けをしている」と記述したものを、「AIにその使い分けを実装する」という方向に転換したわけですね。

富良野：そう。ACT-Rとカーネマンは直接の系譜ではないんですが、どちらも「人間の認知は単一の処理系ではない」という前提に立っていて、理論的な地盤としては近いところにある。それをAIに借用するんです。

Phrona：へえ。論文では4段階を設定していて、一番浅いのが「反射」——記憶に刷り込まれた即時反応。次が「パターン認識」——過去の類似ケースから素早く対応を引き出す。三番目が「推論」——手持ちの情報を組み合わせて考える。そして一番深いのが「戦略的計画立案」——長期的な目標や不確実性を見越して、より大きな文脈で考える段階ですよね。

富良野：そうです。カーネマンの2層を、もっと細かい地図に描き直した感じです。

Phrona：これ、すごく人間っぽいですね。熟練した職人さんの仕事の段階みたいな感じがして。

富良野：確かに——仕事を覚え始めのころは一つひとつの動きを意識して「推論」しながらやるけど、熟達すると「反射」や「パターン」で動ける部分が増えて、その分、本当に重要な判断だけに深い思考を使える。

Phrona：「あ、これは考えなくていい場面だ」と判断できることそのものが、ある種の技術なんですよね。

富良野：そこが核心だと思っていて。この研究、技術的な効率化の話でもあるんだけど、「何かを考えなくて済む能力」っていう、ちょっと逆説的な能力についての話でもある気がするんですよ。

「うまく手を抜く」ことを学ばせる訓練

Phrona：じゃあ、実際どうやってそれをAIに学ばせるんですか？「今はレベル1でいい」みたいなことを、どうやって覚えさせるんでしょう。

富良野：2段階の訓練なんです。まず最初の段階が「CoSFT（認知レベルを意識した教師あり微調整）」で、各レベルの認知パターンを安定して使えるようにする。言わば、4段階の思考モードをそれぞれ習得させる段階ですね。

Phrona：それだけだと「どの場面でどのレベルを使うか」の判断まではできませんよね。

富良野：そうそう。だから次の段階が「CoPO（認知を意識した方策最適化）」という強化学習で、どの場面でどのレベルを選ぶかを、試行錯誤しながら最適化していく。ここが本当の意味での「判断力」の訓練です。

Phrona：強化学習って、結果の良し悪しをフィードバックして学ばせる手法ですよね。ゲームのプレイヤーが得点を最大化するように動くのと似た仕組みの。

富良野：そうです。ただこのCoPOには一工夫あって、「自信度」を手がかりに使うんです。適切な認知レベルで行動を選ぶと、モデルは自分の予測に自信を持ちやすい——逆に、無駄に深く考えたり浅すぎたりすると、予測が不安定になる。その自信の度合いを報酬に反映させることで、レベル選択が洗練されていく。

Phrona：「自信がある選択ができている時はうまくいっている」というのは、なんとなく人間的な直感にも合う感じがしますね。

富良野：うん。「あ、これは分かった」という感覚と「うーん、ちょっとよく分からないぞ」という感覚の違いが、そのまま認知レベルの選択に反映されていくイメージ。

Phrona：でも、「自信がある」こと自体が間違っているケースもありますよね。過信とか。

富良野：そこはするどいんですけど、この仕組みだと過信の問題は少なくて——確信度が高くても、結果として課題を達成できなければ報酬が入らない設計なので。自信だけが一人歩きしても意味がない。

結果として見えてくるもの

Phrona：で、実際どれくらいうまくいったんですか。

富良野：かなり劇的な結果で。家庭内での物の操作タスクと、仮想環境での理科の実験タスクというベンチマークで評価しているんですが、ベースモデルとして使っている70億パラメータの比較的小さなモデルで、GPT-4oを40パーセント以上上回る成功率を出している。

Phrona：ちょっと待ってください、70億パラメータって小さいんですか？

富良野：GPT-4oは推定で数千億パラメータとも言われているので、規模の桁が違う。それくらい差があるのに、タスク達成率では上回っていると。

Phrona：規模では圧倒的に小さいのに、タスク達成では上回る——それって、つまり「頭のデカさよりも使い方」という話ですよね。

富良野：まあ、乱暴に言えばそう。しかも消費するトークン数——計算量の指標みたいなもの——は比較対象の手法より62%少ない。速くて効率的なのに、成果は出る。

Phrona：「考えすぎないようにした結果、むしろ賢くなった」という。

富良野：そう読める。「じっくり考えることが常に良い」という暗黙の前提が、この研究によって揺さぶられている感じがするんですよね。

「考えない場所」が見えてくると、「考える場所」が際立つ

Phrona：さっきの職人の話に戻ると、「考えなくていい部分が増えること」で、「本当に考えるべき場所」が見えやすくなる、という側面もあると思うんですよ。

富良野：注意資源の配分問題ですよね。人間も含めて、何かに気を使えば使うほど、別のことへの注意は下がる。ルーティン化できる部分はルーティンに任せて、非定型の判断にエネルギーを集中させる。

Phrona：でも、それって「どこがルーティンでどこがそうでないか」を正確に判断できていないと機能しない話でもあって。判断の誤りが一番怖い場面で「反射」を使ってしまうと、致命的になる。

富良野：この研究のフレームワークでは、それを「自信度の校正」で補おうとしているんですけど、完璧ではないと思います。どんなタスクがどれくらいの深さを必要とするかの事前知識が、訓練データに依存しているので、新しい種類の問題に出会ったとき、正しい認知レベルを選べる保証はない。

Phrona：未知の場面に対する頑健性、ということですね。人間でも、「これは慣れた問題だから直感でいける」と思い込んで、実は全然違う構造の問題だった、みたいなことはありますよね。

富良野：専門家の「経験からくる確信」が、逆に盲点を生むっていう話は、医療診断とか法的判断とか、色々な領域で研究されていますよね。

Phrona：「よく分かっている気がする」というその感覚自体を、どれくらい信頼していいか——それを問い続ける必要があるという。

富良野：AIにも、人間にも、共通する問いですね、それ。

人間への「逆輸入」という可能性

Phrona：ふと思ったんですが。CogRouterって、人間の判断から着想を得てモデル化してAIに組み込んだ研究ですよね。それをそのまま逆方向に使うと、面白いことができそうじゃないですか。

富良野：逆方向、というのは？

Phrona：AIが「どのレベルで考えているか」を明示化できるなら、その枠組みを人間の判断の振り返りに持ち込めないか、という話です。「あの意思決定、自分はどのレベルで動いていたか」を事後的に言語化できると、PDCA的なループが回しやすくなる気がして。

富良野：それは確かにそうなんですが、一個ハードルがあって。「自分が今どのレベルで考えていたか」を正確に自覚するのって、人間には相当難しいんですよ。認知科学的には、メタ認知の精度はそんなに高くない。「ちゃんと推論した」と思っていても実はパターン認識で動いていた、ということはかなり頻繁に起きる。

Phrona：もちろん、だから「自覚が難しい」こと自体が、仕組みを作る意義になるかな、と。自己申告に頼るんじゃなくて、行動のログから後づけでAIが判断レベルを推定する、という形にすれば。

富良野：そうか。AIの側では「自信度」という内部指標を使って認知レベルを外から推定しているわけで、人間側でも同じ発想が使える——意思決定のスピード、情報参照の有無、検討時間、修正の頻度、そういったログが残っていれば、「本人は熟慮したつもりでも実は5秒で決めていた」みたいなことが可視化できる。

Phrona：人間の判断の「暗黙の感覚」をAIが明示化して、それが今度は人間の訓練に戻ってくる可能性がある。一周して、元の人間のあり方を変えていく、みたいなことが今後増えそうな気がします。センサーとAIが組み合わさると、コーチが見えていなかった認知のパターンが外から読めるようになる。スポーツでは身体の動きの分析はすでに進んでいるけど、「判断の動き」の分析はまだこれからですよね。

富良野：そこまで来ると、これはトレーニングのパラダイムにも触れてくる話になりますよね。今のトレーニングって、基本的に「人間が人間を見て、言語でフィードバックする」という構造に依存していて、コーチの観察力と言語化能力が上限になる。

Phrona：外科手術のトレーニングとか、パイロットのシミュレーターとか、判断の質が直接大きな結果に関わる領域から先に変わっていくのかな。そういうところでは、「どこで反射に逃げたか」が見えることの価値は相当大きい。

富良野：ただ、「何を訓練目標とするか」の定義権がどこにあるか、という問いも出てきますよね。ログから認知パターンを読んで「ここが非効率」と言い続けた結果、人間の判断スタイルがそちらに収束していく——それが望ましいかどうかは、また別の話として。

Phrona：論文は純粋にAIの効率化の話だったのに、ちょっと脱線しちゃいましたね。

富良野：それだけ研究の射程が広い論文だったってことですよ、きっと。

ポイント整理

認知的硬直の問題
- 現在のLLMを使ったAIエージェントは、簡単な作業も複雑な判断も同様の思考深度を用いるという「固定された認知パターン」に縛られている。これは長期的・多段階のタスクにおいて非効率を生み出す。
CogRouterの概要
- この問題を解決するため提案されたフレームワーク。各ステップで「どのくらい深く考えるか」を動的に選択することを目標とする。人間の認知モデルであるACT-R理論に基づいて設計されている。
4段階の認知レベル
- 反射的応答（即時反応）→パターン認識（類似ケースへの即時対応）→推論（情報の組み合わせによる思考）→戦略的計画立案（長期目標と不確実性を考慮した高次の思考）という4つの階層を設定している。
2段階の訓練プロセス
- まず「CoSFT（認知レベルを意識した教師あり微調整）」で各レベルの認知パターンを安定して使えるよう訓練し、次に「CoPO（認知を意識した方策最適化）」という強化学習で、場面に応じたレベル選択を最適化する。
自信度を用いたフィードバック
- CoPOでは、「適切な認知レベルを使うと行動予測に自信が持てる」という原理を活用し、予測の確信度を学習の報酬信号に組み込む設計になっている。
実験結果
- 70億パラメータの比較的小さなベースモデルを使用しながら、GPT-4oの成功率を約40ポイント上回り、既存手法と比べてトークン消費量を62%削減した。効率と精度の両立を実現している。
含意
- 「深く考えること」が常に良いわけではなく、「どこで考えを深め、どこで省エネにするか」を判断する能力こそが、高度な知的パフォーマンスの鍵になりうる。この視点は人間の認知や熟達論とも共鳴する。

キーワード解説

【LLMエージェント（LLM agent）】

大規模言語モデルを中核に置き、環境との対話や多段階のタスク実行を行うシステム。単に質問に答えるだけでなく、計画を立て、行動し、結果をフィードバックとして学ぶ自律的な振る舞いを目指す。

【認知的硬直（cognitive rigidity）】

状況や難易度に関わらず、思考のスタイルや深さが固定されてしまう性質。人間においては適応的な学習の障壁になることがあり、AIにおいては計算資源の非効率な配分を招く。

【ダニエル・カーネマン（Daniel Kahneman）と「ファスト＆スロー」】

ノーベル経済学賞受賞の心理学者。2011年の著書『Thinking, Fast and Slow』で、人間の思考を「システム1（速い・直感的・自動的）」と「システム2（遅い・熟慮的・意識的）」の2層で説明した。本論文のタイトルはこの構図を意識しており、2層をさらに4段階に細分化・動的化したものとして位置づけられる。

【ACT-R理論（Adaptive Control of Thought-Rational）】

認知心理学者ジョン・アンダーソンが開発した人間の認知アーキテクチャ（思考の仕組み）モデル。記憶の引き出し、パターン認識、推論の統合など、複数の認知プロセスを統一的に説明するフレームワーク。カーネマンと直接の系譜ではないが、「認知は単一の処理系ではない」という前提を共有している。

【CoSFT（Cognition-aware Supervised Fine-tuning）】

認知レベルを意識した教師あり微調整。正解データを使ってモデルに各認知レベルのパターンを安定して学ばせる訓練段階。

【CoPO（Cognition-aware Policy Optimization）】

認知を意識した方策最適化。強化学習を用いて、どの場面でどの認知レベルを選ぶべきかを、試行錯誤を通じて最適化する訓練段階。

【強化学習（reinforcement learning）】

試行錯誤を通じて、報酬が最大になるような行動方針（ポリシー）を学ぶ機械学習の手法。ゲームのプレイヤーが得点を最大化するように動作を学ぶのと似た仕組み。

【トークン（token）】

AIが文章を処理する際の単位。大まかには単語や文字のかたまりに相当し、トークン消費量は計算コストや応答速度に直結する。

【POMDP（partially observable Markov decision process）】

部分的に観測可能なマルコフ決定過程。AIエージェントが完全な情報を持たない状況での逐次的意思決定を扱う数学的フレームワーク。