「答え合わせ」より「考え方」を学ぶAI――知識グラフが報酬の採点者になるとき

Seo Seungchul
3 日前
読了時間: 14分

シリーズ: 論文渉猟

◆今回の論文：Yuval Kansal et al., "Knowledge Graphs are Implicit Reward Models: Path-Derived Signals Enable Compositional Reasoning" (arXiv, 2026年1月21日）

概要：大規模言語モデルの多段階推論能力の限界に注目し、「統一医学言語システム（UMLS）」という医療知識グラフを暗黙の報酬モデルとして活用する訓練手法を提案。教師あり微調整と強化学習を組み合わせたパイプラインで、1〜3ホップの短い推論で訓練した140億パラメータのモデルが4〜5ホップの未知の複雑な問いに汎化でき、より大規模なモデルを凌駕することを示した。

「ChatGPTって数学の問題は解けるのに、なんか医療の専門的な話になると急に怪しくなるよね」——そんな印象を持ったことはありませんか。実はこれ、個別の感想にとどまらない、AI研究が真剣に取り組んでいる構造的な問題です。

2026年1月にプリンストン大学から発表された論文は、この問題の核心に正面から向き合っています。現代のAIが「数学やプログラミングでは専門家並み」なのに「医療のような分野での複雑な推論には弱い」のは、訓練の設計に根本的な欠陥があるから——具体的には、「答えが合っているか」だけを褒めて育てているから、というのです。

そこでこの研究が提案するのが、「知識グラフ」という構造化された知識の地図を、AIの採点者として使う新しい訓練手法です。140億規模の比較的小さなモデルが、GPT-5.2やGemini 3 Proといった最前線の大型モデルを、最も難しい推論タスクで上回るという驚きの結果が出ました。「大きければ賢い」という常識への、静かだけど鮮やかな反論です。

得意と苦手の非対称——なぜ「答えが出せる」と「考え方が分かる」は違うのか

富良野：最近、AIの推論能力の話で気になってることがあるんですよね。

Phrona：どんな話ですか？

富良野：数学の問題とかプログラムのバグ修正とか、そういう分野では今のAIって本当に上手くなってますよね。でも医療みたいな専門知識の領域になると、急に頼りなくなる印象がある。なんでそういう差があるんだろう、って。

Phrona：感覚としてはすごく分かる。AIに「この症状から何が考えられる？」って聞くと、流暢に答えは返ってくるんですよね。でも「なぜそのステップを踏んだの？」ってなると、どこかふわっとする。

富良野：その「なぜ」を辿れないのが問題の本質で。数学って、答えが合ってるかどうかが明確に検証できるじゃないですか。中間のステップも、正しいかどうかが数学的に確認できる。でも医療みたいな専門分野は、答えに至るまでの「推論の経路」こそが命で、その経路が正しいかを確かめる仕組みが今のAI訓練にはなかった、という話なんです。

Phrona：「答えだけ丸暗記してきた学生」と「なぜそうなるか理解してる学生」の差みたいな話ですよね。試験の点数は同じでも、初めて見る問題が来たときに全然違う。

富良野：まさに。今のAI訓練の多くは、言ってみれば「答え合わせ」で育てる方法なんです。正解を出したら褒める。でもそれだと、見たことのないパターンの問題——未知の複雑な推論課題——には対応できない。

Phrona：答えを出す能力と、考え方のプロセスを積み上げる能力は、別のことなんですね。

知識グラフとは何か——概念の地図を「ホップ」して歩く

Phrona：今日の論文のキーワードが「知識グラフ（Knowledge Graph）」ですよね。これ、ちゃんと理解できていない気がして。

富良野：ざっくり言うと、概念と概念の関係性を矢印でつないだ「知識の地図」です。医療領域だと、「アスピリン」→「シクロオキシゲナーゼを阻害する」→「プロスタグランジンの合成が抑えられる」→「炎症・痛みが軽減する」みたいな連鎖が構造として入ってる。

Phrona：用語集じゃなくて、関係性が見える地図なんですね。「AはBと繋がっていて、BはCを引き起こす」という構造がある。

富良野：そう。で、その地図の上を複数の節（ノード）を跳び越えて歩くような推論を「マルチホップ推論（多段階推論）」と呼ぶんですよ。ホップが「跳ぶ」という意味で、2ホップなら二つの節を経由、5ホップなら五つを経由して結論に至る。

Phrona：一回跳べばいい話から、五回跳ばないと答えに辿り着けない話まである、ということですね。

富良野：一つの臨床診断が「患者の背景情報→症状→疾患→原因分子→治療薬」という流れになるとしたら、それが5ホップ。論文はその意味で医療を「合成推論の厳しい試験場」と呼んでいます。

Phrona：で、ここに知識グラフを「採点者」として使うアイデアが来るわけですね。知識グラフには経路の正解が入ってるから、AIが推論の各ステップで正しい経路を辿ってるかどうかを自動的に採点できる。

富良野：そう。これが論文のタイトルにもある「知識グラフが暗黙の報酬モデルになる」という意味で。報酬モデルっていうのは、AIに「それ、いい行動ですよ」と信号を送る仕組みのことですね。

四種類の採点方法を試した——そして「シンプルなほうが強かった」

Phrona：報酬信号の設計って、そんなに難しいことなんですか？「知識グラフに経路があるなら、それと照合すればいいじゃない」って思ってしまうんですが。

富良野：実際には、どんな報酬信号が「深い推論」を引き出すかは自明じゃないんです。この研究は四種類の候補を試してるんですよ。

Phrona：どんな種類ですか？

富良野：一つは「最終的な答えが合ってたら1点、間違いは−1点」というシンプルな正誤判定。もう一つは「専門家が書いた模範解答にどれだけ似ているか」を測るもの。三つ目は「考える過程の長さや質」を評価するもの。そして四つ目が、知識グラフの経路とどれだけ一致してるかを測る「経路整合スコア」。

Phrona：「考える過程の長さや質」を評価する報酬って、なんか直感的に良さそうだけど。

富良野：いや、これが一番危なくて。「長く考えたふりをする」方向にAIが学んでしまう——いわゆる「報酬ハッキング」が起きやすかったんです。長々と考察を書いても中身がない、みたいな。

Phrona：ああ、人間の学生でもいるな、そういう人（笑）。答案びっしり書いてるのに、核心がどこにもない。

富良野：「模範解答に似せる」報酬も、実は見た目を真似することに最適化されてしまって、論理的な組み立て自体は学ばなかった。で、結局もっとも強かったのが「答えの正誤判定＋経路整合スコア」というシンプルな組み合わせだったんです。

Phrona：余計なものを削ぎ落とした方が強かった、ということですよね。シンプルな信号が、かえって「本質を学ばせる」。

富良野：論文の言い方で言えば「シンプルさの力」ですよね。ただ「正解か」だけじゃなく、「知識グラフの経路を自分の推論の中に含んでいるか」を一緒に問うことで、答えに至る過程自体を学ばせられる。

RL単独では足りなかった——「基礎なき強化学習」の失敗

Phrona：ちょっと聞いてもいいですか。最初から強化学習だけで訓練したら、なんでいけないんでしょう。

富良野：これ、実は論文が明示的に「失敗した」と書いてる部分なんですよね。最初に「強化学習だけ（ゼロからRL）」というアプローチを試したら、うまくいかなかった。

Phrona：なんで？

富良野：AIが「どんな知識を組み合わせればいいか」をそもそも知らない状態で、「良い答えを出したら褒める」というゲームをさせても、方向感が掴めないんです。ちょっと極端に言えば、泳ぎ方を知らない人に「水に浮いたら褒める」だけ言っても難しい、みたいな。

Phrona：まず基礎の知識を入れてから、その知識の組み合わせ方を強化学習で磨く、という順番が必要なんですね。

富良野：そう。だから訓練は二段階になってるんです。まず「教師あり微調整（SFT）」という段階で、知識グラフに基づいた推論のお手本を大量に学ばせる。これで「何を知っているか」の土台を作る。その後、比較的少ない問題数で強化学習（RL）をかけて「それをどう組み合わせるか」を磨く。

Phrona：SFTが「何を知るか」で、RLが「どう組み合わせるか」の段階。SFTが土台で、RLが橋渡し、みたいな役割分担ですね。

富良野：論文も「SFTは暗記し、RLは汎化する」という言い方をしてる先行研究を引用してますね。基礎なき強化学習は空回りする、という教訓でもあります。

「短い練習」で「長い未知の問題」を解けた——逆転現象の意味

Phrona：で、結果はどうだったんですか。

富良野：かなり鮮やかな逆転劇があって。このモデルは1〜3ホップの比較的シンプルな推論で訓練されたんですよ。でも、4〜5ホップの未知の問い——つまり訓練で一度も見たことのない複雑なタスク——で、最も大きな伸びを示した。4ホップでSFTのみ比較で7.5%向上、5ホップで11.1%向上。

Phrona：訓練したことない問題で、訓練した問題より伸び幅が大きかった？それってちょっと変じゃないですか（笑）。普通は見たことないことの方が難しいはずで。

富良野：そこが面白くて。これが「本当に組み合わせ方を学んだ」証拠なんですよ。パターンを暗記してたら、見たことない長い推論チェーンには対応できない。でも「どう組み合わせるか」という論理を学んでいたら、長い連鎖も構成できる。

Phrona：積み木を並べる練習を積み上げてた子が、より高い塔を頼まれたときにむしろ実力が出た、みたいな。

富良野：しかも5ホップの問題での精度が89.33%まで到達して、GPT-5.2やGemini 3 Proよりも高かった。このモデルのパラメータ数（AIの規模を表す指標）は140億で、それらよりずっと小さいのに。

Phrona：規模の大きさじゃなくて、「何を手がかりに考えるか」の設計が重要だという話ですね。大きければ賢い、とはいかない。

富良野：論文は「規模は知識の幅を広げる道具かもしれないけど、深い合成推論への橋は、経路に整合した報酬設計にある」と言っている。

「良いデータが最重要」という地味で深い結論

Phrona：難易度5の最も難しい問題で、ベースモデルの精度が19.94%だったというのは、かなり衝撃的な数字ですよね。ランダムに回答するより低い。

富良野：4択問題だから、何も考えずに答えたら25%は当たる計算ですからね。AIが真剣に考えた結果、ランダム以下になるっていう。これが「報酬の過剰最適化」の極端な例で、見た目は自信満々に答えてるけど、実際の推論は崩れてる状態。

Phrona：それが、この研究のアプローチで56.75%まで改善した。2.8倍以上。

富良野：で、ここで一個面白いことがあって。強化学習の前段階、教師あり微調整だけのモデルも、「答えの選択肢の順番をシャッフルするストレステスト」に対してかなり頑健だったんですよ。普通のモデルだと選択肢の並び順に引っ張られて精度が落ちる——これが「位置バイアス」という問題で、GPT-5やGemini 2.5 Proでさえ4〜6%落ちる——のに、このモデルは約1%しか落ちなかった。

Phrona：それって、訓練データの質が高かったから、みたいな話ですよね。正しい推論の経路を学んでいれば、選択肢の見た目に惑わされない。

富良野：そう、それが論文の結論の一つでもあって。「良いデータが最重要だ」というシンプルな言葉で締めくくってる。知識グラフから導かれた構造化された訓練データを使ったことで、モデルが表面的なパターンじゃなく、本質的な論理の組み立てを学べた、ということだと思いますね。

Phrona：なんかすごく地味だけど、深い話ですよね。「大量のデータ」じゃなくて「質の高いデータ」、というのは機械学習の大原則ではあるけど、その「質の高さ」が何を意味するかを具体的に示したということでもある。

この手法はどこまで使えるか——開かれた問い

Phrona：ところで、この研究って、医療以外にも使えるんでしょうか？

富良野：論文自体は「領域を問わない」と言っていて。構造化された知識グラフが存在する分野なら——有機化学でも、法律でも——理論上は同じアプローチが使えると。

Phrona：でも「信頼できる知識グラフがある」というのが前提ですよね。医療なら比較的整備されてるけど、もっと曖昧な領域では……。

富良野：そうですね。そこは研究も認識してる限界で。知識が流動的だったり、解釈が多様だったりする領域では、「正しい経路」自体が問えない。社会科学とか文化の解釈みたいな話になると、知識グラフの「正解」ってそもそも何かという問い自体が変わってくる。

Phrona：この研究が示したのは、「構造化できる知識の領域では、規模よりも設計が重要」ということで、「全ての知識が構造化できる」とは言ってないわけですよね。

富良野：ええ。論文も「専門的な超知性へのスケーラブルで検証可能な道への一歩」という言い方をしていて、全てへの答えとは言ってない。ただ、医療・法律・理工系のような「一定の構造を持つ専門知識の領域」には、なかなか力強い方法論だと思います。

Phrona：「大きく賢く」じゃなく「小さく深く」という方向性が、本当に実力として成り立つ瞬間を見せた研究、ということですよね。それが今後どこまで広がるか、興味深いです。

ポイント整理

大規模言語モデルは数学・プログラミング等「答えの正誤が明確に検証できる領域」では専門家並みの性能を達成しているが、医療のような専門科学分野での「複数の知識を連鎖的につなぐ多段階推論」には限界がある。これは訓練設計の構造的問題でもある。
従来のAI訓練（人間のフィードバックを使う強化学習・好みの最適化）は「最終的な答えだけ」を評価するため、AIが「見た目に良い答えを出すスタイル」を過剰に最適化してしまう「報酬の過剰最適化」リスクがあった。安全性が重要な領域では、これは「人間が好むスタイル」と「実際の正確さ」の乖離を生む。
知識グラフとは、概念を節（ノード）、概念間の関係を辺（エッジ）として表現した構造化されたデータベース。医療分野では「統一医学言語システム（UMLS）」が代表例。多段階推論に必要な「経路」が構造として埋め込まれている。
本研究の中核は、知識グラフ上の「正解の経路」とAIの推論トレースの一致度を自動採点する「経路整合報酬」の設計。AIが各推論ステップで正しい知識の経路を辿っているかを検証できるため、人間が膨大な推論チェーンを一つひとつ評価する必要がなく、スケールする。
報酬設計の試行錯誤では、「考える過程の長さや質」を評価する報酬は報酬ハッキング（長いが中身のない推論の生成）を誘発し、「模範解答への類似度」報酬は見た目の模倣に最適化されてしまった。最終的に「答えの正誤（非対称ペナルティ付き）＋経路整合スコア」というシンプルな組み合わせが最も効果的だった。
訓練は二段階で、まず教師あり微調整（SFT）で知識グラフ由来の推論トレースを大量学習して知識の土台を形成し、続いて少量の強化学習（RL）で推論の組み合わせ能力を磨く。強化学習のみのアプローチ（ゼロRL）は「基礎なき強化」となり、SFT単独にも劣る結果となった。
1〜3ホップの短い推論で訓練したモデルが、4〜5ホップの未知の複雑な問いで最大の性能向上を示した。これは単なるパターン暗記ではなく、「論理の組み合わせ方」を学んだ証拠と解釈される（「合成汎化」）。
140億パラメータという相対的に小規模なモデルが、GPT-5.2やGemini 3 Proといった最前線の大規模モデルを最難度の推論タスクで凌駕し、5ホップ問題では89.33%の精度を達成。また32Bモデルのオープンソース医療特化モデルとの比較でも、最難度（難度5）では+9.36%の優位性を示した。
答えの選択肢の順序をランダムにシャッフルする「ストレステスト」に対しても精度低下は約1%にとどまり、大手最前線モデルの4〜6%低下と比較して著しく頑健だった。これは構造化された高品質な訓練データが、モデルに表面的なパターンではなく本質的な論理の学習をもたらしたことを示している。
本手法は領域を問わず、構造化された知識グラフが存在する分野（有機化学、法律など）に原理的には適用可能。ただし「信頼できる知識グラフの存在」が前提であり、解釈が多様・流動的な知識領域への展開は今後の課題。

キーワード解説

【多段階推論（マルチホップ推論）】

複数の知識の断片を連鎖的につなぎ合わせ、一度では答えられない複雑な問いに段階的に答える推論能力。「Aという薬はBという酵素に作用し、Bの阻害はCという物質を減らし、Cの減少はDという症状を改善する」といった4段階の連鎖推論が「4ホップ」にあたる。

【知識グラフ（Knowledge Graph）】

概念（エンティティ）を節（ノード）、概念間の関係（リレーション）を辺（エッジ）として表現した構造化されたデータベース。本論文では医療知識グラフとして「統一医学言語システム（UMLS）」を使用。

【報酬モデル（Reward Model）】

強化学習において、AIの行動や出力に対して「良さ」のスコアを与える仕組み。本研究では知識グラフが自動的に報酬を算出するため「暗黙の報酬モデル」と呼ばれる。

【教師あり微調整（SFT：Supervised Fine-Tuning）】

正解データとお手本の推論トレースを与えてAIに学ばせる訓練手法。「正解とその理由」のペアで大量に学ばせることで、基礎的な知識と推論の形式を習得させる。本研究では「基礎知識の形成」役を担う。

【強化学習（RL：Reinforcement Learning）】

行動に対して報酬を与え、より良い行動を引き出す訓練手法。本研究では知識グラフから導かれた経路整合報酬と正誤判定報酬を使い、「どう組み合わせるか」の能力を磨く段階を担う。

【報酬ハッキング（Reward Hacking）】

AIが本来の目的を達成するのではなく、「報酬が高くなる行動」を抜け道的に学んでしまう現象。「考える過程を長く書く」報酬では、中身のない長文推論を生成するモデルが出現した。

【経路整合報酬（Path Alignment Reward）】

本研究のオリジナル報酬設計。AIの推論トレースに知識グラフの正解経路上のエンティティ（概念）がどれだけ含まれているかを測定し、スコア化する。少なくとも二つ以上の経路上エンティティを含む場合のみ有効化する「最小ヒット制約」を設けて、偶然の一致を防ぐ。

【ゼロショット汎化】

訓練中に一度も見ていない種類の問題に対して、学んだ能力を応用して解答できること。本研究では1〜3ホップで訓練したモデルが4〜5ホップの未知の問いに答えられた現象がこれにあたる。

【ボトムアップ学習】

基礎的・原子的な知識から出発し、それらを組み合わせて複雑な知識を構築していく学習パラダイム。大量データから上位パターンを抽出するトップダウンアプローチと対比される。

【位置バイアス（Positional Bias）】

選択肢問題において、答えの選択肢の並び順によってAIの回答が変わってしまう問題。本研究のモデルはこのバイアスへの耐性が高く、選択肢シャッフル後の精度低下が約1%にとどまった。