AIは「科学する」知性になり得るのか?──ファウンデーションモデルの限界を探る
- Seo Seungchul

- 2025年9月18日
- 読了時間: 8分
更新日:2025年9月21日

シリーズ: 論文渉猟
◆今回の論文:Keyon Vafa et al. "What Has aFoundation Model Found? Using Inductive Bias to Probe for World Models" (arXiv, 2025年7月9日)
概要: ファウンデーションモデルが本当に世界モデルを学習しているかを評価する手法「帰納バイアス探査」を開発。物理、ゲーム理論などの分野で実験した結果、モデルは予測タスクで高い性能を示すものの、根本的な法則や構造の理解は乏しいことが判明した。
ChatGPTやClaude、Geminiといった最新のAIモデルは、驚くほど自然な文章を生成し、複雑な問題を解いてみせます。私たちは日々、その能力の高さに感心しているわけですが、ここで一つ気になる疑問が浮かんできます。これらのAIは本当に「世界の法則」を理解しているのでしょうか。それとも、膨大なデータを巧妙に組み合わせているだけなのでしょうか。
今回取り上げる研究は、そんな根本的な問いに真正面から挑んだものです。研究者たちは「帰納バイアス探査」という独創的な手法を開発し、AIモデルが物理法則やゲームのルールといった「世界モデル」をどこまで内在化しているかを調べました。そして驚くべき結果にたどり着いたのです。星の軌道を完璧に予測できるAIが、ニュートンの法則は全く理解していない。オセロを上手にプレイするAIが、盤面の本質的な構造は把握していない。
この発見は、現在のAI技術の能力と限界について、私たちに重要な洞察をもたらします。AIの「知性」とは何なのか、そして本当の理解とはどのようなものなのか。富良野とPhronaの二人の対話を通して、この興味深い研究の意味を一緒に考えてみましょう。
ケプラーからニュートンへ:AIは物理法則を発見できるのか
富良野:この研究、なかなか面白い視点で書かれていますね。ケプラーの惑星運動の予測からニュートンの力学法則の発見まで、科学史の流れを現代のAIに重ねて考えている。
Phrona:そうですね。「予測から理解へ」という科学の発展過程を、AIが本当になぞれるのかという問いかけですよね。でも結果を見ると、AIは惑星の軌道は完璧に予測できるのに、その背後にあるニュートンの法則は全然理解していないという。
富良野:象徴的な結果だと思います。論文の図を見ると、真の重力法則は F ∝ m1m2/r² というシンプルなニュートンの式なのに、AIが学習した法則は sin や cos がごちゃごちゃ入った意味不明な式になっている。
Phrona:それが面白いのは、AIは予測性能では人間を上回っているということなんです。つまり、「正しく予測できること」と「法則を理解していること」は全く別の能力だということが露呈したわけですね。
富良野:そこが今回の研究の核心かもしれません。彼らが開発した「帰納バイアス探査」という手法は、まさにその違いを明らかにするためのものですからね。モデルが新しいタスクにどう適応するかを見ることで、本当に原理を理解しているかどうかを判別しようとしている。
Phrona:具体的には、異なる銀河系でAIに力の法則を学習させたら、銀河ごとに全く違う法則を覚えてしまったんですって。本当にニュートンの法則を理解していたら、どの銀河でも同じ法則が出てくるはずなのに。
富良野:つまりAIは汎用的な物理法則ではなく、その場しのぎのヒューリスティック、いわば「場当たり的な経験則」を使い分けているということになりますね。これは実用面でも問題になりそうです。
盤面を見ているようで見ていない:オセロの実験が示すもの
Phrona:物理だけじゃなくて、オセロゲームでも似たような結果が出ているのが興味深いです。AIは合法手をほぼ100パーセント正確に打てるのに、盤面の真の状態は理解していないという。
富良野:これも驚きでした。研究者たちがAIに実際の盤面を予測させたところ、盤面自体は間違っているのに、そこから可能な次の手の集合は正確に一致していたんですよね。
Phrona:まるで、チェス盤の配置は覚えていないけれど、どのマスに駒を置けるかだけは正確に知っているプレイヤーみたい。実用的には問題ないけれど、本質的な理解とは程遠い感じがします。
富良野:これが「次トークン分割」という概念につながるわけですね。AIは真の世界状態ではなく、「次に何ができるか」という行動可能性の集合で世界を理解している。言ってみれば、世界の構造そのものではなく、その瞬間に利用できる選択肢にしか関心がない。
Phrona:なんだか、とても近視眼的な知性という感じがしますね。森を見ずに木だけを見ているような。でも考えてみると、これって現在のAIの訓練方法と密接に関係している気がします。
富良野:その通りですね。次のトークンを予測することで学習する以上、AIは「今この文脈で何が来るか」という局所的な判断に特化せざるを得ない。長期的な構造や根本的な法則を学ぶインセンティブが設計に組み込まれていないんです。
Phrona:だとすると、これはAIの能力不足というより、現在の学習パラダイムの必然的な帰結なのかもしれませんね。
世界モデルか、それとも巧妙なパターンマッチングか
富良野:この研究で一番考えさせられるのは、「世界モデル」とは何かという定義の問題です。AIが持っているのは確かに何らかの内部表現だけれど、それを「理解」と呼べるのかどうか。
Phrona:人間だって、物理法則を意識的に考えながら日常生活を送っているわけではないですよね。ボールを投げるとき、放物線の方程式を計算したりはしない。でも、なんとなく「このくらいの力で投げれば届く」という感覚は持っている。
富良野:確かに。でも人間の場合、必要に応じてより深い理解に移行できる柔軟性がありますよね。物理を学べば、なぜボールがそう飛ぶのかを法則として理解できるようになる。
Phrona:それに対してAIは、その特定のタスクでは人間以上の精度を示すけれど、少し条件が変わると全く違う法則を適用してしまう。まるで、状況ごとに別々の人格が現れるみたいに。
富良野:研究でも指摘されていましたが、これは「タスク特化型ヒューリスティックの寄せ集め」と表現されていました。統一された世界観ではなく、場面ごとの対処法をたくさん持っているだけ、という解釈ですね。
Phrona:でも、それはそれで一つの知性の形なのかもしれません。人間が求める「統一的理解」が唯一の正解とは限らないし、実用性という観点では十分な場合も多いでしょうし。
富良野:ただ、科学や技術の発展という文脈では大きな制約になりそうです。真の発見や創造的な飛躍は、やはり根本的な原理の理解から生まれることが多いですから。
帰納バイアス探査:AIの内面を覗く新しい窓
Phrona:今回の研究で開発された「帰納バイアス探査」という手法自体も革新的ですよね。従来のプローブ手法は、AIの内部表現を静的に分析するものが多かったけれど、これは学習過程そのものを観察している。
富良野:そうですね。小さなデータセットに適応させたときの振る舞いを見ることで、そのモデルが本当に何を学んでいるかを明らかにしようとしている。いわば、AIの「反射神経」を試すようなものかもしれません。
Phrona:面白いのは、この手法が示した結果の一貫性です。物理、格子問題、オセロと、全く異なる分野で同じような傾向が見られた。表面的な予測性能と深い理解の乖離は、現在のAIに共通する特徴なのかもしれません。
富良野:特に格子問題での結果は象徴的でした。状態数が少ないときはまあまあうまくいくけれど、複雑になると急激に性能が落ちる。この限界の明確さは、現在のアーキテクチャの根本的な制約を示しているように思えます。
Phrona:そして興味深いことに、異なるアーキテクチャ間での性能差も報告されているんですよね。トランスフォーマーは他のモデルに比べて一貫して性能が低かった。
富良野:これは実用的にも重要な示唆かもしれません。現在主流のトランスフォーマーベースのモデルが、必ずしも世界理解において最適とは限らないということですから。
ポイント整理
帰納バイアス探査手法の革新性
従来の静的な内部表現分析ではなく、小さなデータセットへの適応過程を観察することで、モデルの真の理解度を測定する新しい評価手法を開発した。
予測性能と理解の乖離
高い予測精度を示すモデルでも、根本的な法則や構造の理解は乏しいことが複数分野での実験で一貫して確認された。
タスク特化型ヒューリスティックの発見
AIモデルは統一的な世界モデルではなく、状況に応じた場当たり的な経験則の集合体として機能していることが明らかになった。
次トークン分割による世界理解
モデルは真の状態空間ではなく、各状況で可能な次の行動の集合に基づいて世界を理解している傾向が見られた。
アーキテクチャ間の性能差
トランスフォーマーは他のアーキテクチャ(RNN、LSTM、Mamba等)と比較して、世界モデル理解において一貫して劣る性能を示した。
物理法則学習の失敗
軌道予測で高精度を示すモデルも、ニュートンの重力法則は理解せず、条件によって異なる非論理的な法則を適用していた。
ゲーム理解の表面性
オセロで合法手をほぼ完璧に打てるモデルでも、盤面の真の状態は理解しておらず、次の可能手の集合のみを正確に把握していた。
評価手法の重要性
標準的な性能評価では見えないモデルの限界を明らかにするため、新しい評価視点の必要性が示された。
キーワード解説
【帰納バイアス探査(Inductive Bias Probe)】
モデルが小さなデータセットに適応する際の振る舞いを観察し、その背後にある暗黙の世界モデルを明らかにする評価手法
【世界モデル(World Model)】
データの背後にある構造や法則を表現する概念的枠組み
【次トークン分割(Next-Token Partition)】
真の状態ではなく可能な次の行動の集合によって世界を区分する認知方式
【外挿的予測可能性(Extrapolative Predictability)】
限られたデータから未知の状況への予測がどの程度可能かを示す指標
【タスク特化型ヒューリスティック】
特定の状況に特化した場当たり的な経験則や判断方法
【象徴回帰(Symbolic Regression)】
データから数式やパターンを自動的に発見する機械学習手法
【プローブ手法(Probing)】
AIモデルの内部表現や学習内容を外部から分析する技術
【ファウンデーションモデル】
大規模データで事前学習され、様々なタスクに適用可能な汎用AI模型