なぜ言語モデルは幻覚を見るのか?──学習システムが抱える根深い問題
- Seo Seungchul

- 9月13日
- 読了時間: 8分

シリーズ: 論文渉猟
◆今回の論文:Adam Tauman Kalai et al. "Why Language Models Hallucinate" (arXiv, 2025年9月4日)
概要: 大規模言語モデルの幻覚現象を統計学習理論の観点から分析し、事前学習から評価システムまでの包括的な要因を解明した研究
確信を持って間違った答えを述べる大規模言語モデル。この現象は「幻覚」と呼ばれ、最先端のシステムでも依然として頭を悩ませています。なぜこの問題は解消されないのでしょうか?新しい研究が指摘するのは、問題の根源が学習や評価のプロセス自体にあるということです。事前学習で生まれた幻覚が、なぜポスト訓練を経ても残り続けるのか。そこには二分法的な評価システムが持つ構造的な問題が潜んでいました。富良野とPhronaの対話を通じて、この複雑な問題の本質に迫っていきます。
確信を持って嘘をつく機械
富良野:筆者であるアダム・カライの誕生日はいつか?という質問に対して、言語モデルが「3月7日」「6月15日」「1月1日」とバラバラな答えを返す、という例から始まるこの論文、面白いです。
Phrona:ああ、それ面白いですね。でも考えてみると、人間だって不安な試験問題に直面したとき、「分からない」って正直に言わずに、ついもっともらしい答えをでっち上げちゃうことありませんか?
富良野:まさにそこなんです。この研究の核心は、言語モデルの幻覚を「不確実な時の推測行動」として捉えてるところにある。不安な時は「わからない」と答えるのが誠実なのに、なぜそうしないのか。
Phrona:人間なら試験が終われば現実の世界で学習できるけれど、言語モデルはずっと「テストモード」のままなんですね。そりゃあ推測グセが抜けないわけだ。
富良野:そうそう。しかもこの論文が示してるのは、幻覚が単なる技術的なバグじゃなくて、統計学習の必然的な結果だということです。二分法的な評価システム——正解か不正解かの0-1評価——が、不確実性を素直に表現するより推測を促してしまう。
学習の根っこで何が起きているのか
Phrona:でも、そもそもなんで学習段階から幻覚が生まれるんでしょう?
富良野:面白いのは、この論文が教師あり学習(二分類問題)と教師なし学習(密度推定)の橋渡しをしてるところなんです。「これは有効な言語モデルの出力か?」という yes/no 質問を考えてみてください。
Phrona:ああ、なるほど。生成って、候補となる応答それぞれについて「これは有効か?」を判断することの積み重ねみたいなものですね。
富良野:その通り。で、この Is-It-Valid(IIV)という二分類問題の誤分類率が、生成エラー率と数学的な関係にある。つまり、「これは正しい答えか?」を見分けるのが難しければ、正しい答えを生成するのはもっと難しい。
Phrona:でも完璧な訓練データを使えば大丈夫なんじゃないでしょうか?
富良野:いや、それが驚くべきことに、完全にエラーのない訓練データを使っても、統計学習の目的関数を最小化する過程で、どうしてもエラーが生まれてしまうんです。これが Good-Turing の「欠落質量推定」と関連してるところが面白い。
Phrona:欠落質量?
富良野:訓練データに一回しか出てこない事実の割合のことです。たとえば、誕生日の事実の20%が訓練データに一回しか登場しなければ、ベースモデルは少なくとも20%の誕生日について幻覚を起こすだろう、という下限が出せる。
評価システムが生み出すジレンマ
Phrona:でも、事後訓練で改善できるんじゃないでしょうか?人間のフィードバックから強化学習したり...
富良野:そこが問題の核心なんです。確かに事後訓練で一部の幻覚は減らせますが、根本的な解決にならない理由がある。
Phrona:というと?
富良野:評価システム自体が幻覚を奨励してしまうからです。論文では面白いシナリオを提示してます。モデルAは不確実な時に正直に「分からない」と答える。モデルBは同じだけど、不確実でも必ず推測する。すると、0-1評価では必ずモデルBの方が高得点になっちゃう。
Phrona:ああ、それは皮肉ですね。正直なモデルの方が評価が低くなるなんて。
富良野:そうなんです。論文では「不確実性を罰する流行病」と表現してる。個別のハルシネーション評価をいくら増やしても、メインの評価がほとんど二分法的である限り、この問題は解決しない。
Phrona:じゃあ、どうすればいいんでしょう?
富良野:論文が提案してるのは「明示的な信頼度ターゲット」です。たとえば、「間違いは2点減点、正解は1点、『分からない』は0点」といった具合に、評価基準を明示する。
Phrona:なるほど。そうすれば、信頼度が3分の1を下回る時は「分からない」と答える方が合理的になる。
完璧な解は存在するのか
Phrona:でも、そもそも完璧にハルシネーションのない言語モデルって作れるんでしょうか?
富良野:技術的には可能です。問答データベースと計算機を組み合わせて、決まった質問にだけ答え、それ以外は「分からない」と答えるモデルを作ればいい。でも、それじゃ汎用性がないですよね。
Phrona:そうですね。言語の豊かさと正確性のトレードオフがありそう。
富良野:まさにそこです。論文では、どんな言語モデルも、訓練データを超えて汎化する限り、無効な出力を生成するか、モード崩壊を起こすかの二択になると指摘されてる。完璧な一般化と完璧な正確性の両立は、原理的に困難なんです。
Phrona:うーん、でも検索機能を付ければ改善するんじゃないですか?
富良野:確かに検索拡張生成(RAG)は有効ですが、万能薬じゃない。検索で答えが見つからない時は、やっぱり推測か「分からない」かの選択になる。そして二分法評価なら、推測の方が有利になってしまう。
人間らしさと機械らしさの間で
Phrona:なんだか人間の学習プロセスと似てますね。学校では推測した方が得点になるけど、実社会では不確実性を認める能力の方が重要になる。
富良野:その通りです。人間は「苦労の学校」で不確実性の価値を学ぶけれど、言語モデルは主に試験で評価され続ける。だから永遠にテスト受験モードから抜け出せない。
Phrona:でも、それって言語モデルが人間らしくなる過程なのかもしれませんね。確信を持って間違えるのも、ある意味人間的というか。
富良野:面白い観点ですね。ただ、問題は透明性です。人間なら表情や声のトーンで不安を表現できるけれど、言語モデルの不確実性は外から見えにくい。
Phrona:行動的キャリブレーション、という概念が出てきますけど、これって何でしょうか?
富良野:簡単に言うと、「信頼度がしきい値より高い時だけ答える」という行動様式のことです。確率的な信頼度を出力させるんじゃなくて、適切な信頼度レベルで最も有用な応答を形成する能力。
技術と社会の接点で
Phrona:この問題って、技術だけじゃ解決できない「社会技術的」な問題なんですね。
富良野:そうなんです。論文では、既存のベンチマークの採点方式を変更することが必要だと主張してる。新しいハルシネーション評価を追加するだけじゃダメで、影響力のあるリーダーボードを含めた主流評価を変えないといけない。
Phrona:それって、研究コミュニティ全体の価値観を変えるってことですよね。すごく大変そう。
富良野:でも希望もあります。たとえば、インドのJEE試験やアメリカの昔のSATでは、間違った回答にペナルティを課していた。そういう先例があるし、統計的に厳密な修正方法も提案されてる。
Phrona:実践的な解決策も見えてきてるんですね。でも、この研究で一番印象的なのは、ハルシネーションを「神秘的な現象」から「統計学習の自然な帰結」として捉え直したことかもしれません。
富良野:そうですね。二分類の誤分類と同じメカニズムで説明できるとなれば、対策も立てやすくなる。問題の本質を見極めるって、やっぱり重要ですね。
ポイント整理
ハルシネーションの根本原因は統計学習の構造にある
完璧な訓練データを使っても、統計目的関数の最小化過程で必然的にエラーが生まれる。これは二分類問題の誤分類と同じメカニズム。
事前学習での下限定理
訓練データに一回しか出現しない事実の割合が、ベースモデルのハルシネーション率の下限を決める。Good-Turing推定子の応用により数学的に証明可能。
二分法評価システムの問題
0-1評価では不確実性を表現するより推測した方が必ず高得点になる。これが「不確実性を罰する流行病」を生み出し、事後訓練でも改善を困難にする。
明示的信頼度ターゲットの提案
評価基準に明確な信頼度しきい値を設定(例:間違いは2点減点、正解は1点、「分からない」は0点)することで、適切な不確実性表現を促進。
行動的キャリブレーション
確率的信頼度の出力ではなく、信頼度しきい値に応じて最適な応答を選択する能力。複数のしきい値で一貫して最適な行動を取れるモデルを目指す。
社会技術的解決の必要性
新しいハルシネーション評価の追加だけでは不十分。既存の影響力あるベンチマークとリーダーボードの採点方式変更が不可欠。
汎化と正確性のトレードオフ
訓練データを超えて汎化する言語モデルは、原理的に無効出力の生成かモード崩壊かの選択を迫られる。完璧な汎化と完璧な正確性の両立は困難。
RAGの限界
検索拡張生成は有効だが万能薬ではない。検索失敗時や内在的ハルシネーション(計算ミス等)には効果が限定的。二分法評価下では依然として推測が有利。
キーワード解説
【ハルシネーション(幻覚)】
もっともらしいが不正確な情報を生成する現象
【Is-It-Valid(IIV)問題】
言語モデル出力の有効性を判定する二分類問題
【Good-Turing推定】
未観測事象の確率を推定する統計手法
【シングルトン率】
訓練データで一回のみ出現する事実の割合
【行動的キャリブレーション】
信頼度に基づいて適切な応答選択を行う能力
【二分法評価】
正解/不正解の0-1得点システム
【事前学習】
大規模テキストコーパスでの基礎的言語分布学習
【事後訓練】
人間フィードバックや強化学習による精密調整
【モード崩壊】
多様な有効応答生成に失敗する現象
【社会技術的問題】
技術と社会システム両方の変更を要する課題