AIは「選ばれなかった道」を知っているのか？――言語モデルの迷いと決断の内側

Seo Seungchul
2025年12月20日
読了時間: 14分

更新日：2025年12月30日

シリーズ: 論文渉猟

◆今回の論文：Amir Zur et al. "Are language models aware of the road not taken? Token-level uncertainty and hidden state dynamics" (arXiv, 2025年11月6日）

概要：言語モデルが推論テキストを生成する際、個々のトークン（単語の断片）選択が異なる推論経路につながり得る。本研究は、モデルが生成中に代替経路を内部表現しているかを検証。隠れ層の活性化パターンを用いてモデルの不確実性を制御・予測する実験を通じて、不確実性が高い時点ほど介入による制御が容易であること、隠れ状態から将来の結果分布を予測可能であることを示した。

ChatGPTやClaudeのような言語モデルが文章を生成するとき、一つひとつの単語の選択が、まったく異なる推論の道筋へとつながっていきます。私たちの目には完成された一つの回答しか見えませんが、その背後には無数の「選ばれなかった可能性」が広がっているのです。

2025年11月に発表された最新研究は、この見えない可能性の風景を可視化し、さらに驚くべき発見をしました。AIモデルは、表面的な出力には現れない形で、これらの代替的な道筋を内部で表現しているというのです。研究チームは「フォーキングパス分析」と呼ばれる手法と、モデルの内部状態への介入実験を組み合わせることで、AIがどの時点で「決断」し、どの時点ではまだ「迷っている」のかを明らかにしました。

この研究が示唆するのは、AIの不確実性は単なるランダム性ではなく、構造化された内部表現に基づいているということ。そして、その不確実性のダイナミクスを理解することで、AIの振る舞いをより効果的に制御できる可能性があるということです。富良野とPhronaは、この研究が投げかける問い――AIの「迷い」とは何か、内部表現は何を意味するのか――を、お茶を飲みながら探っていきます。

見えない分岐点

富良野：AIが何か答えを書いてるときって、僕らには一つの文章が流れてくるだけじゃないですか。でもこの研究、その裏に無数の可能性が隠れてるって話なんですよ。

Phrona：ああ、分かる気がします。人間だって何か書くとき、いろんな言い方を頭の中で試してるようなものですよね。この単語にするか、あの表現にするか、みたいな。

富良野：そう、まさにそれ。で、この研究チームが面白いのは、フォーキングパス分析っていう手法を使って、その「選ばれなかった道」を実際に歩いてみたんです。たとえば算数の問題を解かせて、途中のある単語で別の単語を選んだら、答えがどう変わるか全部試してみる。

Phrona：うわ、それって気が遠くなるような作業じゃないですか？一つの文章を分析するのに何通りも試すんでしょう？

富良野：そうなんですよ。論文には「一つの文章を分析するのに数百万トークン必要」って書いてある。だからこそ、これを効率化できないかってのが研究の動機の一つなんです。

Phrona：でも面白いですね。AIの思考の樹形図みたいなものを外から描き出そうとしてる感じ。

迷いと決断の境界線

富良野：で、この分析をやってみると、すごく興味深いパターンが見えてくるんです。あるトークンまでは複数の答えの可能性が並存してるのに、特定の一語を境にして、ガラッと一つの答えに収束する瞬間がある。

Phrona：それって、AIが「決めた」瞬間なんですかね？

富良野：そう解釈したくなりますよね。研究では「チェンジポイント」って呼んでるんだけど、たとえば利益と損失を計算する問題で、途中で「loss」って単語が出た瞬間に、正解の「3パーセントの利益」から、間違った「3パーセントの損失」へと大きく傾くケースがある。

Phrona：一つの単語でそこまで変わるんだ。でもそれって、人間の思考でもありそうですよね。ある言葉を使った瞬間に、自分の考えが特定の方向に固まっちゃうみたいな。

富良野：まさに。で、研究チームが次にやったのが、じゃあそういう「決まる前」と「決まった後」で、モデルの制御しやすさは違うのか、っていう実験なんです。

Phrona：制御、ですか？

富良野：ええ。モデルの内部の隠れ層、つまり出力には見えない中間的な数値表現に介入して、答えを特定の方向に誘導しようとする。いわばAIの思考を外から操作する実験ですね。

不確実性という手がかり

Phrona：それで何が分かったんですか？

富良野：結果がすごく綺麗でね。モデルが不確実な時点、つまりまだ複数の答えの可能性が残ってる時点では、介入がよく効く。でも一度答えに確信を持つと、もう外から操作してもほとんど変わらなくなる。

Phrona：ああ、それって直感的には分かりやすいかも。人間だって、まだ迷ってるときは説得されやすいけど、一度決めちゃうとなかなか意見変えないですもんね。

富良野：そうそう。で、この相関係数がだいたい0.54くらいあって、中程度の相関として報告されてるんです。つまり、モデルが不確実であればあるほど、ステアリングっていう操作が成功しやすい。

Phrona：でも富良野さん、それって逆に言うと、AIが自信満々で間違った答えを出してるときは、もう修正が難しいってことでもあるんじゃ？

富良野：まさにそういう含意がある。ハルシネーションの問題とも繋がってくるんですよ。モデルが間違った答えに確信を持ってしまう前の、まだ揺れてる段階で介入できれば、軌道修正の余地があるってことですから。

隠れた表現の意味

Phrona：それで、その不確実性を知るために、毎回あの膨大な分岐分析をやるわけにはいかないですよね。

富良野：そこなんです。だから研究の後半では、モデルの隠れ層の活性化パターンから、直接その不確実性を予測できないか試してるんです。

Phrona：つまり、全部の道を実際に歩かなくても、モデルの内部状態を見れば、どのくらい迷ってるか分かるんじゃないかって？

富良野：そういうこと。で、ここで面白い実験デザインがあってね。同じ推論テキストを、元のモデル、たとえばLlama-3.2の隠れ層で見るのと、別のモデル、Gemma-2の隠れ層で見るのとで、不確実性の予測精度を比べるんです。

Phrona：ん？なんで別のモデルを？

富良野：ここがミソでね。もし推論テキストの意味内容だけで不確実性が決まるなら、どのモデルで見ても同じはずでしょう。でも、もしモデル固有の内部表現に、テキストには現れない意思決定の情報が含まれてるなら、元のモデルの隠れ層の方が予測精度が高いはずだと。

Phrona：ああ、なるほど。テキストという表層と、内部表現という深層を分離してるんですね。

言葉にならない思考

富良野：結果は、元のモデルの隠れ層の方が予測精度が明らかに高かった。KLダイバージェンス、つまり予測と実際の分布のズレで測ると、元のモデルが0.62なのに対して、別のモデルだと0.94。

Phrona：それって、言葉として出力されてない部分に、実は重要な情報があるってことですよね。

富良野：そうなんです。言ってみれば、モデルは「言葉にしていない思考」を持ってるというか。

Phrona：でもそれ、ちょっと不思議な感じがしませんか？だって、言語モデルって次の単語を予測するだけの仕組みなんですよね。なのに、出力には現れない形で、内部に情報を持ってる。

富良野：いやあ、まさにそこが面白いんですよ。表面的には次トークン予測っていう単純なタスクなんだけど、その過程で中間表現として豊かな構造が立ち上がってくる。それは単なる言葉の埋め込みベクトル以上のものなんですよね。

Phrona：言葉にならない判断の層、みたいなものがあるのかな。人間でいえば、まだ言語化できてない直感とか、予感とか。

富良野：そうかもしれない。で、これがAI解釈可能性研究の面白さで、単に「正しく答えてるか」だけじゃなくて、「どういうプロセスで答えに至ってるか」を内部から見ようとしてるわけです。

制御可能性という問題

Phrona：でもこの研究って応用を考えると、ちょっと複雑な気持ちになりませんか？AIの不確実な瞬間を狙って介入すれば制御しやすいって分かったわけですけど、それって誰がどういう目的で使うんだろうって。

富良野：うーん、そうですね。研究自体は中立的な知見の蓄積だけど、使い方次第ではいろんな方向があり得る。良い方向で言えば、ハルシネーションを減らすとか、安全性を高めるとか。

Phrona：でも悪用もできますよね。意図的に間違った答えに誘導するとか。

富良野：その可能性はありますね。ただ、この研究の介入手法自体は、モデルの内部パラメータにアクセスできる前提なんですよ。つまり、外部のユーザーが勝手にできることじゃない。

Phrona：ああ、そうか。モデルを開発してる側、運用してる側の話なんですね。

富良野：基本的にはね。ただ、オープンソースのモデルが増えてくると、また状況は変わってくるかもしれない。誰でも内部にアクセスできるようになるわけだから。

不確実性の風景

Phrona：それにしても、AIの不確実性って、人間のそれとどう違うんでしょうね。

富良野：難しい問いですね。人間の不確実性って、知識の欠如だったり、情報の不完全さだったり、いろんな要因が絡んでる。感情や疲労も影響する。

Phrona：AIの場合は、もっと構造的というか、確率分布として定義されてる感じがしますよね。でも、それが単なる数値なのか、それとも何か質的な違いを伴うのか。

富良野：この研究が示してるのは、少なくともAIの不確実性には時間的なダイナミクスがあるってことですよね。静的な確率じゃなくて、トークンごとに変化していく。

Phrona：推論の道筋によって、不確実性の風景が変わっていく、みたいな。

富良野：はい。で、その風景は外からは直接見えないけど、内部表現には刻まれてる。

Phrona：でもそれって、AIに何か内的な経験があるって話じゃないですよね。

富良野：ええ、それは別の話。ここで言ってるのはあくまで情報処理の構造で、現象的な意識とか主観性の話じゃない。でも、情報処理レベルでこれだけ複雑な構造が出現してるのは確かです。

予測と理解のあいだ

Phrona：この研究、読んでて思ったんですけど、AIを理解するって、すごく入れ子構造になってますよね。

富良野：どういうこと？

Phrona：だって、AIの振る舞いを予測するために、AIの内部状態を使って、AIの不確実性を予測する。全部がAIとその表現についての話で、どこにも外部の参照点がない感じ。

富良野：ああ、なるほど。メタレベルの話ですね。確かに、AIがAIを理解する道具を提供してるという循環はある。

Phrona：そうなんです。で、その循環の中で、僕らは本当に何を理解してるんだろうって。

富良野：難しいですね。でも少なくとも、予測可能性は上がってるわけです。モデルの隠れ層から不確実性を推定できれば、振る舞いの予測精度は改善する。

Phrona：ただ予測できることと、理解してることは違いますよね。ブラックボックスの入出力関係がより正確に分かっても、中で何が起きてるかの本質的理解にはならないかもしれない。

富良野：そこは解釈可能性研究の永遠のジレンマかもしれませんね。どこまで分解しても、最終的には高次元ベクトル空間での変換の話になる。それを「理解した」と言えるのかどうか。

残された問い

Phrona：この研究って、まだ小規模な実験ですよね。数個の問題例で試してるだけで。

富良野：そうなんですよ。論文でも正直に、計算コストの問題でサンプル数を絞ってるって書いてある。フォーキングパス分析がものすごく重いから。

Phrona：これがもっと大規模にできるようになったら、何が見えてくるんでしょうね。

富良野：モデルの不確実性のパターンがもっと体系的に分かってくるでしょうね。どういう種類の問題で、どのタイミングで、どう迷うのか。

Phrona：それって、AIの思考の癖みたいなものを地図化することにもなるのかな。

富良野：そうかもしれない。で、それが分かれば、モデルの設計や訓練の仕方も変わってくる可能性がある。たとえば、不確実性を適切に保持したまま推論を進められるような訓練方法とか。

Phrona：いまのモデルって、不確実性の扱いが下手なんですか？

富良野：うーん、必ずしもそうとは言えないけど、少なくとも不確実性を明示的にコントロールする仕組みはあまりないですよね。確信度が低いときには保留する、みたいな振る舞いはデフォルトでは備わってない。

Phrona：それができるようになれば、AIの信頼性も上がりそうですね。自分の限界を知ってるAI、みたいな。

富良野：そうですね。ただ、そこには哲学的な問題もあって、AIの不確実性を誰がどう判断するかって話になってくる。

Phrona：確かに。AIが「分かりません」って言うべき基準を、誰が決めるんだろう。

富良野：難しいですよね。でも、少なくともこの研究は、その議論のための基礎的な道具を提供してる気がします。不確実性を測る方法、制御する方法、予測する方法。

Phrona：道具があって、それをどう使うかはこれから、ってことですね。

富良野：ええ。で、使い方を考えるときには、技術的な可能性だけじゃなくて、社会的な文脈とか、倫理的な判断とか、いろんな視点が必要になってくる。

Phrona：この研究、読めば読むほど、答えより問いが増えていく感じがします。でもそれって、良い研究の証拠かもしれないですね。

富良野：同感です。選ばれなかった道を見えるようにした瞬間に、どの道を選ぶべきかっていう問いが立ち上がってくる。AIと人間、両方にとっての問いとして。

ポイント整理

フォーキングパス分析の手法
- 言語モデルが生成した文章の各トークン位置で、代替トークンを選んだ場合の結果分布を計算する手法。一つの文章を分析するのに数百万トークンの計算が必要なほど計算コストが高いが、モデルの不確実性のダイナミクスを詳細に可視化できる。
チェンジポイントの発見
- 特定のトークンを境に、モデルの結果分布が劇的に変化する「分岐点」が存在する。例えば数学問題の推論中に「loss」という単語が出現した瞬間に、正解の「利益」から不正解の「損失」へと確率分布が大きくシフトするケースが観察された。
不確実性と制御可能性の相関
- モデルの内部表現（隠れ層の活性化）に介入する実験を通じて、モデルが不確実な時点ほど外部からの制御（ステアリング）が成功しやすいことが判明。相関係数は約0.54で中程度の相関が確認された。これは、モデルが確信を持つ前の段階では軌道修正が可能だが、一度答えに確信を持つと介入が困難になることを示す。
隠れ状態による不確実性予測
- モデルの隠れ層の活性化パターンから、線形プローブを用いて将来の結果分布を予測できることが示された。重要なのは、同じテキストを別のモデルの埋め込みで見るよりも、元のモデルの隠れ層で見た方が予測精度が高い点（KLダイバージェンス0.62 vs 0.94）。これは、隠れ状態がテキストの意味内容を超えた、モデル固有の意思決定情報を含んでいることを示唆する。
モデル固有の内部表現
- 複数の言語モデル（Llama-3.2とGemma-2）の比較実験により、推論テキストの意味的情報と、モデル内部の意思決定プロセスを分離して評価。結果として、出力トークンには現れない形で、モデル内部に「言葉にならない判断」が表現されていることが明らかになった。
計算効率の課題
- フォーキングパス分析は非常に強力だが計算コストが高いため、本研究では少数のサンプル（4例）に限定して実験を実施。隠れ状態からの不確実性予測は、この計算コストを大幅に削減できる可能性を示している。
応用の可能性と倫理的課題
- 不確実性の理解と制御は、ハルシネーション削減や安全性向上に貢献する可能性がある一方、悪意ある操作にも利用され得る。現状の介入手法はモデル内部へのアクセスを前提とするが、オープンソースモデルの普及により状況が変化する可能性がある。
不確実性のダイナミクス
- AIモデルの不確実性は静的な確率ではなく、推論プロセスの進行とともに変化する動的な構造を持つ。この時間的変化のパターンは、モデルの推論能力や信頼性を評価する新しい指標となる可能性がある。

キーワード解説

【トークン】

言語モデルが処理する最小単位。単語全体または単語の一部（接頭辞、語幹など）に相当し、モデルはテキストをトークン列として扱う

【フォーキングパス分析】

生成テキストの各位置で代替トークンを選択した場合の分岐経路を全て追跡し、結果の分布を計算する分析手法

【チェンジポイント】

結果分布が急激に変化する特定のトークン位置。ベイズ変化点検出モデルで統計的に推定される

【隠れ層・隠れ状態】

ニューラルネットワークの入力層と出力層の間にある中間層とその活性化パターン。出力には直接現れない内部表現を含む

【ステアリング】

モデルの隠れ層の活性化に介入し、特定の出力方向へ誘導する技術。差分平均法などで計算したベクトルを活性化に加算する

【KLダイバージェンス】

二つの確率分布の違いを測る指標。予測分布と実際の分布のズレを定量化するのに使用される

【線形プローブ】

隠れ層の活性化から特定の情報を予測するために訓練される単純な線形分類器。モデルが内部で何を表現しているかを調べる解釈可能性研究の手法

【残差ストリーム】

Transformerアーキテクチャにおいて、各層の出力が累積的に加算されていく情報の流れ。介入実験の対象となる

【チェーン・オブ・ソート推論】

最終回答に至る前に、段階的な思考過程をテキストとして明示的に生成させる手法。複雑な推論タスクでモデルの性能を向上させる

【ハルシネーション】

言語モデルが事実に基づかない、または誤った情報を高い確信度で出力する現象

【解釈可能性研究】

AIモデルの内部メカニズムや意思決定プロセスを理解可能にするための研究分野。ブラックボックス化した深層学習モデルの動作原理を解明する

【活性化パターン】

ニューラルネットワークの各層・各ノードにおける数値的な活性化状態の分布。モデルが情報をどう内部表現しているかを示す