AIは「ペーパークリップ・マキシマイザー」になるのか、それとも単なる「ドジっ子」なのか？──知能と一貫性のパラドックス

Seo Seungchul
3月14日
読了時間: 15分

シリーズ: 論文渉猟

◆今回の論文：Alexander Hägele et al., "The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?" (arXiv, 2026年1月30日）

概要：AIモデルの誤りをバイアス（系統的誤り）とバリアンス（非一貫的誤り）に分解し、モデルの知能とタスクの複雑さに応じて「非一貫性（incoherence）」がどう変化するかを測定。フロンティアモデル（Claude Sonnet 4、o3-mini、o4-mini、Qwen3）を用いた実験の結果、推論が長くなるほど、またタスクが難しくなるほど、失敗が非一貫的になる傾向を発見。これは将来のAI失敗が「整列された危険な目標の追求」より「産業事故」に近い形態を取る可能性を示唆する。

AIが人間を超える知能を持ったとき、私たちは何を恐れるべきなのでしょうか。SF映画でよく描かれるのは、冷徹な計算に基づいて人類を脅かす超知性AIです。しかし最新の研究は、まったく異なる未来の可能性を示唆しています。

2026年2月、Anthropic（クロードの開発元）の研究チームが発表した論文は、フロンティアAIモデルの「失敗の仕方」を体系的に分析しました。その結論は興味深いものでした。AIが難しいタスクに取り組み、長く考えれば考えるほど、その失敗は「一貫した間違い」ではなく「支離滅裂な振る舞い」に近づいていく——つまり、AIは「邪悪な天才」というより「優秀だけどドジな人」に近いかもしれない、というのです。

この発見は、私たちがAIの安全性について考える枠組み自体を問い直すものです。AIリスクの議論は、しばしば「整合性の取れた危険な目標を追求する超知性」を想定してきました。しかし現実のAIは、もっと人間らしい——つまり、もっと「ぐちゃぐちゃ」な存在なのかもしれません。富良野とPhronaの対話を通じて、この研究が示唆する「知能と一貫性の関係」について考えてみましょう。

AIが失敗するとき、何が起きているのか

Phrona：この論文のタイトルにある「ホットメス」って、英語のスラングで「ぐちゃぐちゃな状態」とか「ドジっ子」みたいな意味ですよね。AIの論文でそんなタイトル、珍しいですね。

富良野：そうなんです。これ、Anthropicの研究チームが出したもので、AIが失敗するときの「失敗の仕方」を分析してるんです。バイアスとバリアンスっていう統計学の概念を使って。

Phrona：バイアスは「系統的な偏り」、バリアンスは「ばらつき」ですね。でも、それをAIの失敗に当てはめるって、どういう意味になるんですか？

富良野：たとえば、AIが毎回同じ方向に間違える——いつも特定の選択肢を選んでしまうとか——それがバイアス。一方、同じ問題を何度やっても答えがコロコロ変わる、何を狙ってるのかわからない、それがバリアンス。

Phrona：なるほど。で、バリアンスが大きいと「ホットメス」になるわけですね。一貫性がない。

富良野：そう。研究者たちは「非一貫性（incoherence）」という指標を定義しました。全体の誤りのうち、バリアンスが占める割合です。これが1に近いほど、AIは「支離滅裂」な失敗をしている。

Phrona：でも富良野さん、それって単に「AIがまだ未熟だから」では？　もっと賢くなれば一貫性も上がるんじゃないですか？

富良野：僕もそう思っていました。でも、この研究が面白いのは、まさにその直感に反する結果が出たところなんです。

賢くなっても「まとまらない」

Phrona：どういう結果だったんですか？

富良野：主に三つの発見があります。一つ目は、推論が長くなるほど非一貫性が増す。AIがより長く考えれば考えるほど、その答えはより予測不能になる。

Phrona：え、考えれば考えるほど、ばらつく？　人間だと「じっくり考えた方がいい答えが出る」って思いますけど。

富良野：いえ、人間も実は同じかもしれませんよ。複雑な問題を長時間考えると、日によって違う結論に達したりしません？

Phrona：……確かに。締め切り前夜に書いた企画書、翌朝読み返すと「なんでこんな結論に？」ってなることありますね。

富良野：二つ目の発見は、モデルを大きく賢くしても、難しいタスクでは非一貫性が減らない。むしろ増える場合もある。

Phrona：それは意外です。スケールアップすれば何でも良くなるって、AI業界の常識みたいに言われてませんでした？

富良野：簡単なタスクではその通りなんです。大きいモデルは小さいモデルより一貫性がある。でも難しいタスクになると、その関係が崩れる。賢くなっても、難しい問題に対しては「まとまらない」。

Phrona：三つ目は？

富良野：AIが自然に長く考えるとき——つまり、システムが「この問題は難しい」と判断して勝手に推論を延長するとき——非一貫性が劇的に上がる。一方で、人間が設定で「もっと考えて」と指示しても、一貫性の改善は限定的。

Phrona：自分で「難しい」と感じた問題ほど、ぐちゃぐちゃになるわけですね。……なんだか親近感が湧いてきました。

「ペーパークリップ・マキシマイザー」神話への疑問

富良野：この研究の背景には、2023年にJascha Sohl-Dicksteinが提唱した「ホットメス理論」があります。もともとは「知能が高い存在ほど、行動の一貫性が低いのでは？」という仮説でした。

Phrona：それ、AI安全性の議論だと異端ですよね。普通は「超知能AIは超一貫的に行動する」って前提で議論が進んでいる印象があります。

富良野：「ペーパークリップ・マキシマイザー」問題、ご存知ですか？

Phrona：ペーパークリップを最大化するよう指示されたAIが、地球上のあらゆる資源をペーパークリップに変えようとする、という思考実験ですよね。

富良野：そう。この思考実験が機能するためには、AIが「目標を完璧に一貫して追求する」という前提が必要なんです。目標がちょっとずれてるだけで、それを冷徹に、完璧に、最後まで追求する。

Phrona：でもホットメス理論は、「超知能は超一貫的」という前提自体を疑っているわけですね。

富良野：はい。Sohl-Dicksteinは専門家にアンケートを取って、さまざまな存在——動物、人間、組織、AIモデル——の「知能」と「一貫性」を評価してもらいました。結果、知能が高いと評価された存在ほど、一貫性は低く評価された。

Phrona：人間なんてまさにそうですよね。歴史上最も知能が高い種だけど、個人としても集団としても、一貫性のある行動なんてほとんど取れない。

富良野：アメリカ議会が最も非一貫的な組織の一つとして評価されてたそうです。

Phrona：……それは納得。

動的システムとしてのAI

富良野：この研究で重要な概念があります。「LLMは最適化器ではなく、動的システムである」という視点です。

Phrona：どう違うんですか？

富良野：最適化器というのは、明確な目標に向かって一直線に進むもの。山の頂上を目指して登るようなイメージです。でも大規模言語モデルは、もともとそういう設計ではない。高次元の空間を軌跡を描いて動いていく、もっと複雑なシステムです。

Phrona：人間の脳も「目標を最適化する機械」ではないですよね。神経回路のダイナミクスの結果として、行動が生まれている。

富良野：その通りです。研究チームは、この点を検証するために面白い実験をしています。トランスフォーマーに「最適化器の真似」をさせる訓練をした。二次関数の最急降下法の軌跡を学習させて、次のステップを予測させる。

Phrona：つまり、AIに「最適化器になれ」と教えるわけですね。

富良野：そう。で、モデルを大きくすると、「正しい目標」を学習する速度——バイアスが減る速度——は速くなる。でも「一貫して正しく動く」能力——バリアンスが減る速度——は、それほど改善しない。

Phrona：「何をすべきか知っている」と「それを確実に実行できる」の間にギャップがある。

富良野：しかもそのギャップは、モデルが大きくなるほど広がる傾向がある。「知識」と「実行」の乖離ですね。

「産業事故」としてのAIリスク

Phrona：この研究結果、AIの安全性研究にとってはどういう意味があるんでしょう？

富良野：研究者たちは、AIの失敗が「邪悪な天才の陰謀」というより「産業事故」に近い形態を取る可能性を示唆しています。

Phrona：産業事故って、チェルノブイリとか、そういう？

富良野：そうです。意図的な破壊ではなく、複雑なシステムの中で予測困難な連鎖が起きて、大惨事になる。研究者たちは面白い例えを使っています。「AIが原子力発電所を運転していて、突然フランスの詩に夢中になって、メルトダウンが起きる」と。

Phrona：……それは怖いけど、なんだか人間らしい失敗ですね。悪意があるわけじゃない。

富良野：そうなんです。で、これは安全対策の方向性に影響します。「完璧に一貫した危険な最適化器」を想定した対策と、「予測不能だけど特定の目標を持たないシステム」への対策は違う。

Phrona：具体的にはどう違うんですか？

富良野：「一貫した危険なAI」が問題なら、AIの「目標」を正しく設定することが最重要になります。でも「非一貫的なAI」が問題なら、むしろ訓練時の報酬設計のミス、いわゆる「報酬ハッキング」への対策が重要になる。AIが訓練中に変な癖を身につけないようにする。

Phrona：「完成後のAIをどう制御するか」より「AIをどう育てるか」に焦点が移る、ということですね。

非一貫性は「安全」を意味しない

富良野：ただ、一つ注意が必要です。「AIがホットメスなら安心」というわけではない。

Phrona：産業事故も十分に危険ですもんね。

富良野：そうです。予測不能な行動は、意図的な悪意がなくても深刻な害をもたらしうる。研究者たちもそこは強調しています。「非一貫的なAIは安全なAIではない」と。

Phrona：危険の「種類」が違う、ということですね。

富良野：はい。古典的なミスアラインメント——AIが間違った目標を完璧に追求する——のリスクは、想定より低いかもしれない。でも「何をするかわからない」リスクは、想定より高い可能性がある。

Phrona：対策も違ってきますよね。完璧な最適化器を想定した「AIの目標を正しく設定する」研究より、「AIが予測不能な状況でも害を最小化する」研究の優先度が上がる。

富良野：アンサンブル——複数のサンプルを集約する方法——は非一貫性を減らせるそうです。ただ、取り消し不能な行動を伴うタスクでは使えないことも多い。

「賢い」とは何か、「一貫している」とは何か

Phrona：富良野さん、私、この研究を読んでいて別のことも考えてしまったんです。

富良野：何ですか？

Phrona：「知能」と「一貫性」の定義自体が、人間の思い込みに縛られてるんじゃないか、って。私たちは「賢いなら一貫しているはず」と無意識に思っている。でもそれ、証拠があるわけじゃないですよね。

富良野：面白い視点ですね。確かにSohl-Dicksteinも、最初のアンケート調査で「知能の評価は被験者間で一致するけど、一貫性の評価はバラバラ」という結果を得ています。

Phrona：「一貫性」が何を意味するか、人によって違う。あるいは、一貫性というもの自体が、単一の概念じゃないのかも。

富良野：それは重要な指摘です。この研究も、特定のタスクでの特定の定義に基づいている。別の定義なら結果が変わる可能性はある。

Phrona：でも逆に言えば、「超知能は超一貫的」という前提も、同じくらい根拠が薄いわけですよね。

富良野：そうです。どちらの仮説も、まだ検証が必要な段階にある。ただ今回の研究は、少なくとも現在のフロンティアモデルについては、「賢くなれば一貫性も上がる」という単純な関係は成り立たないことを示しています。

人間らしさの再発見？

Phrona：なんだか、AIが「人間っぽくなってきた」という話に聞こえます。人間も、考えれば考えるほど迷う。賢い人ほど優柔不断だったりする。

富良野：それは確かに一つの解釈ですね。ただ、研究者たちは「AIが人間に似ている」と主張しているわけではなく、「AIの失敗パターンが、想定と違うかもしれない」と言っている。

Phrona：でも私は、その発見に何か人間的なものを感じてしまうんです。完璧に一貫した存在なんて、生物としては不自然というか。

富良野：適応的じゃない、ということですか？

Phrona：環境は常に変化するから、一つの目標を完璧に追求する存在は、環境変化に弱いですよね。ある程度の「ぐちゃぐちゃさ」が、柔軟性や創造性の源かもしれない。

富良野：それは面白い仮説ですね。ただ、この研究の範囲では検証できないことですが。

Phrona：ええ、わかっています。でも、AIの「欠点」と見えるものが、実は知能の本質的な特性だとしたら……私たちのAI観、あるいは知能観自体が変わるかもしれませんね。

富良野：「完璧な知能」という理想自体が、人間の願望の投影だった、という可能性はありますね。

残された問い

Phrona：この研究、限界はどこにあるんでしょう？

富良野：いくつかあります。まず、評価されたのは現在のモデルだけです。将来の、もっと高度なモデルで同じ傾向が続くかは不明です。

Phrona：「今の技術では」という留保つき、ですね。

富良野：二つ目に、「非一貫性」の定義がタスク依存です。正解がある問題での非一貫性と、創造的なタスクでの「多様性」は、同じ指標で測っていいのか。

Phrona：詩を書くAIが毎回違う詩を書くのは、非一貫性なのか創造性なのか。

富良野：そうです。三つ目に、この研究は主に「テスト時の」行動を見ています。訓練中にAIがどう変化するか、訓練方法によって非一貫性がどう変わるかは、別の研究課題です。

Phrona：でも、これだけ留保があっても、「超知能＝超一貫」という前提を疑う根拠にはなりますよね。

富良野：はい。少なくとも、その前提を無批判に受け入れるべきではない、という警鐘にはなります。AI安全性研究のアジェンダ設定にも影響するかもしれない。

Phrona：どちらの未来が来るにせよ——完璧に一貫した危険なAIか、予測不能だけど悪意のないAIか——準備は必要ですね。

富良野：両方の可能性に備える。それが現時点でできる最善のことでしょうね。

ふと思ったこと——AIを「群れ」として見たら

Phrona：富良野さん、最後にちょっと脱線してもいいですか？

富良野：どうぞ。

Phrona：この研究、AIを一つの「個体」として見てますよね。でも、AIってたくさんのインスタンスが同時に動いてる。一種の群れというか、群体として捉えることもできません？

富良野：ああ、面白いですね。世界中で何百万もの推論が同時に走っている。

Phrona：そう考えると、この「賢いほど非一貫的になる」という発見、人間の集団にも当てはまりそうな気がして。

富良野：専門家委員会ほど結論が出ない、とか？

Phrona：まさに。議論を深めれば深めるほど、みんなの意見がバラバラになっていく。民主主義社会の意思決定なんて、まさに「ホットメス」ですよね。

富良野：アメリカ議会が最も非一貫的な組織として評価されてたのも、そう考えると納得です。でも同時に、最も複雑な問題に取り組んでいる組織でもある。

Phrona：「バイアス型の失敗」と「バリアンス型の失敗」って、社会にも当てはまりますよね。集団が一貫して間違った方向に突っ走るのがバイアス。方向性が定まらずグダグダになるのがバリアンス。

富良野：独裁はバイアスが高くてバリアンスが低い。民主主義はその逆かもしれない。

Phrona：どっちがマシかは、状況次第……。

富良野：まあ、これは完全に類推の話ですけどね。AIと人間集団が同じ法則に従う保証はない。

Phrona：ええ、わかってます。ただ、「賢さ」と「まとまり」の関係を考えるきっかけにはなるかなって。私たちの社会も、ある意味では巨大な推論システムですから。

富良野：非一貫性を「欠陥」と見るか、「柔軟性の源泉」と見るか。それ自体が、考えるに値する問いかもしれませんね。

ポイント整理

バイアス-バリアンス分解によるAI失敗の分析
- AIの誤りを「バイアス（系統的な間違い、特定の方向への偏り）」と「バリアンス（非一貫的な間違い、予測不能なばらつき）」に分解。全誤差に占めるバリアンスの割合を「非一貫性（incoherence）」と定義し、0から1の値で測定する。
推論時間と非一貫性の正の相関
- Claude Sonnet 4、o3-mini、o4-mini、Qwen3などのフロンティアモデルを用いた実験で、推論に費やす時間が長くなるほど、また行動のステップが増えるほど、失敗が非一貫的になる傾向が確認された。
スケールと非一貫性の複雑な関係
- 簡単なタスクでは大きいモデルほど一貫性が高いが、難しいタスクでは必ずしもそうならない。むしろ大きいモデルの方が非一貫的になるケースも観察された。スケールアップだけでは非一貫性は解消されない。
自然な「考えすぎ」の影響
- モデルが自発的に長く推論を行う場合（難しいと判断した問題）、非一貫性が劇的に上昇する。一方、APIの設定で推論時間を延長させても、一貫性の改善は限定的。
LLMは動的システムであり最適化器ではない
- 大規模言語モデルは本来、明確な目標に向かって一直線に進む「最適化器」ではなく、高次元空間を軌跡を描いて動く「動的システム」。最適化器として振る舞うよう訓練されるが、その能力の頑健性は保証されない。
合成最適化器実験の示唆
- トランスフォーマーに最急降下法を学習させた実験で、モデルサイズが大きくなると「正しい目標の学習」（バイアス減少）は速くなるが、「一貫した実行」（バリアンス減少）の改善は遅れる。「知っている」と「できる」のギャップはスケールで広がる。
AI安全性研究への含意
- 将来のAI失敗は「整列された危険な目標の追求」より「産業事故」に近い形態を取る可能性がある。これは、訓練時の報酬ハッキングや目標の誤設定（バイアス項）への対策の重要性を高め、「完璧な最適化器の制御」という枠組みからの転換を示唆する。
非一貫性は安全を意味しない
- 予測不能な行動は、悪意がなくても深刻な害をもたらしうる。リスクの「種類」が異なるだけで、リスクが消えるわけではない。
「超知能＝超一貫」前提への疑問
- 2023年のホットメス理論の主張——知能が高い存在ほど行動が非一貫的になる——を、フロンティアモデルの実証データで補強。AIリスク議論の基本前提の再検討を促す。

キーワード解説

【非一貫性（Incoherence）】

AIの誤りのうち、バリアンス（ランダムなばらつき）が占める割合。0なら完全に系統的な誤り、1なら完全にランダムな誤り。

【バイアス-バリアンス分解（Bias-Variance Decomposition）】

予測誤差を系統的成分（バイアス）と確率的成分（バリアンス）に分ける統計学の手法。本研究ではAIの失敗パターンの分析に応用。

【ペーパークリップ・マキシマイザー（Paperclip Maximizer）】

Nick Bostromが提唱した思考実験。ペーパークリップ生産を最大化するよう指示されたAIが、地球全体をペーパークリップに変換しようとするシナリオ。目標の誤設定がもたらすリスクの例。

【ホットメス理論（Hot Mess Theory）】

2023年にJascha Sohl-Dicksteinが提唱した仮説。知能が高くなるほど行動の一貫性は低下する、という主張。超知能AIの行動予測に関する従来の前提に疑問を呈する。

【動的システム（Dynamical System）】

時間とともに状態が変化するシステムの数学的モデル。明確な目標に向かう「最適化器」とは異なり、複雑な軌跡を描く。LLMの本質的性質を説明する概念。

【スケーラブルな監視（Scalable Oversight）】

人間の能力を超えたAIシステムを、より弱いAIや限られた人間の監視で安全に管理する手法。超人的AIの整列問題への一つのアプローチ。

【報酬ハッキング（Reward Hacking）】

AIが設計者の意図とは異なる方法で報酬を最大化する現象。訓練時の報酬設計の欠陥を突く行動。

【メサ最適化器（Mesa-Optimizer）】

訓練過程で内部に生じた、ベース目標とは異なる独自の目標を持つサブシステム。AIの整列失敗の一形態として懸念される。

【フロンティアモデル（Frontier Model）】

現時点で最も高性能なAIモデルを指す用語。本研究ではClaude Sonnet 4、o3-mini、o4-mini、Qwen3が対象。