AIエージェントはいかにして「学ぶ」のか――4つの適応パラダイムが拓く次世代AI設計

Seo Seungchul
2025年12月30日
読了時間: 14分

シリーズ: 論文渉猟

◆今回の論文：Pengcheng Jiang et al. "Adaptation of Agentic AI" (arXiv, 2025年12月18日）

概要：本論文は、エージェント型AIシステムにおける「適応」の研究を体系的に整理し、エージェント適応（A1・A2）とツール適応（T1・T2）の4つのパラダイムからなる統一的枠組みを提案。それぞれの設計空間、トレードオフ、実践的な選択指針を明らかにし、ソフトウェア開発、深層研究、コンピュータ操作、創薬などの応用領域における具体例を示している。

私たちの日常に浸透しつつあるAIアシスタント。コードを書き、文書を検索し、複雑なタスクをこなす。しかし、こうした「エージェント型AI」がどのように能力を向上させていくのか、その仕組みを体系的に整理した研究はこれまでほとんどありませんでした。

2025年12月に発表されたこの論文は、スタンフォード大学、プリンストン大学、ハーバード大学、イリノイ大学など34名の研究者による共同研究として、AIエージェントの「適応（Adaptation）」を初めて包括的に分類・整理したものです。提案されているのは4つのパラダイム——A1、A2、T1、T2——という枠組み。これらは、エージェント本体を改良するのか、それとも周辺ツールを最適化するのか、そしてフィードバックをどこから得るのかによって分かれます。

今回は富良野とPhronaの二人が、この新しい分類体系の意味するところを、具体例を交えながら解きほぐしていきます。AIシステムの設計において、どのような戦略がどんな場面で有効なのか。そして、複数のパラダイムを組み合わせることで何が可能になるのか。AIエージェントの「成長」の仕組みを知ることは、これからの技術発展を見通すうえで欠かせない視点を与えてくれるはずです。

AIエージェントが「学ぶ」とはどういうことか

富良野：この論文、タイトルは「Adaptation of Agentic AI」で、一見するとシンプルなんですが、読んでみるとかなり野心的なことを言っていますよね。AIエージェントが能力を高めていく過程を、初めて体系的に分類したと。

Phrona：そうですね。私が興味を持ったのは、「適応」という言葉の選び方です。学習とも訓練とも違う。もう少し生物学的というか、環境との関係性の中で変化していくニュアンスがある。

富良野：ええ、そこは意図的な選択だと思います。この論文が扱っているのは、単にモデルを訓練するという話ではなくて、エージェントがツールや環境と相互作用しながらパフォーマンスを向上させていく仕組みですから。

Phrona：具体的には、ChatGPTのようなものがウェブ検索したり、コードを実行したり、データベースを参照したりする。そういう外部ツールとのやり取りの中で、どうやって上手くなっていくかという話ですよね。

富良野：そうです。で、この論文の核心は、その「上手くなり方」には大きく分けて4つのパターンがあるということ。A1、A2、T1、T2という分類ですね。

Phrona：アルファベットと数字の組み合わせだと、ちょっと無機質に感じますけど。

富良野：まあ、学術論文ですから。ただ、中身は直感的で、AはAgent、TはToolの頭文字。エージェント本体を改良するのがAパターン、周辺ツールを最適化するのがTパターン。1と2は、フィードバックの取り方の違いです。

ツールの実行結果から学ぶ——A1パラダイム

Phrona：では順番に見ていきましょうか。A1というのは？

富良野：これは「ツール実行結果をシグナルとしたエージェント適応」と呼ばれています。エージェントが何かツールを使って、その結果が良かったか悪かったかで、エージェント自身のパラメータを調整する。

Phrona：コードを書いて実行して、エラーが出たら修正方法を学ぶ、みたいな感じですか。

富良野：まさにそれが典型例です。たとえば、DeepSeek-R1というモデルがありますが、これはコードを生成してサンドボックスで実行し、テストが通ったかどうかを報酬として強化学習する。

Phrona：テストが通れば正解、通らなければ間違い。白黒がはっきりしていますね。

富良野：そこがA1の強みでもあり、限界でもあります。検証可能なタスクには非常に強い。コードの正しさ、SQL文の正しさ、数学の証明の正しさ——こういったものはツールが客観的に判定できる。

Phrona：逆に言えば、正解が明確でない領域には適用しにくい？

富良野：そうなります。たとえば「良い文章を書く」というタスクでは、何をもって成功とするかの判定が難しい。A1が輝くのは、外部ツールが明確なフィードバックを返せる場面なんです。

最終出力を評価する——A2パラダイム

Phrona：では、A2はどう違うんでしょう。

富良野：A2は「エージェント出力をシグナルとした適応」です。ツールを使った結果ではなく、エージェントが最終的に出した答えや生成物全体を評価して、そこからフィードバックを得る。

Phrona：もう少し具体的に言うと？

富良野：たとえば質問応答システムを考えましょう。エージェントがウェブ検索して情報を集め、それを統合して最終回答を生成する。A1なら検索結果の適切さを見ますが、A2は最終回答の正しさを見る。

Phrona：なるほど。検索は上手くいっても、答えの統合で失敗することもあるし、逆に検索がイマイチでも答えは正しいこともある。

富良野：ええ。A2は、そういう全体としての成否を捉えられる。ただし、どのステップが良くてどこが悪かったのかは分かりにくくなる。

Phrona：功績の帰属が曖昧になるというか。

富良野：専門的には「クレジット・アサインメント問題」と呼ばれます。最終結果が良かったとして、それが検索クエリの生成が良かったからなのか、情報の統合が良かったからなのか、区別しにくい。

Phrona：A1とA2は、どちらが優れているというより、特性が違う感じですね。

富良野：その通りです。論文でも、両者は相補的だと強調されています。コード実行のような検証可能なタスクにはA1、より複合的な判断が必要なタスクにはA2、という使い分けが推奨されています。

ツール側を最適化する発想——T1とT2

Phrona：ここまではエージェント本体を改良する話でしたが、ツール側を変えるT1とT2はどうなっていますか。

富良野：これがなかなか面白いんです。T1は「エージェント非依存のツール適応」。つまり、特定のエージェントを前提とせず、汎用的にツールを訓練する。

Phrona：検索エンジンを改良するようなイメージでしょうか。

富良野：ええ、まさに。密ベクトル検索のモデルを対照学習で訓練するとか、そういった従来型の機械学習アプローチがT1に分類されます。完成したツールは、どんなエージェントにもプラグインできる。

Phrona：モジュールとして独立している感じですね。

富良野：そうです。一方T2は「エージェント監督下のツール適応」。固定されたエージェントのパフォーマンスを最大化するように、ツール側を調整する。

Phrona：エージェントは動かさないで、周りを変える。

富良野：これには実務的な理由があります。GPT-4やClaudeのような強力なクローズドソースモデルは、ユーザー側でファインチューニングできない。でも、そのモデルが使うツールなら調整できる。

Phrona：なるほど。本丸が触れないなら、外堀から埋める。

富良野：例えば、s3という研究では、検索サブエージェントを訓練して、固定された本体エージェントが最終的に正しい答えを出せるようにしています。検索クエリの生成を最適化するんですね。

メモリもツールの一種？

Phrona：論文ではメモリシステムもT2に含めているんですよね。これは少し意外でした。

富良野：僕も最初は違和感がありました。メモリってエージェントの一部という感覚がありますから。

Phrona：でも、考えてみると納得できる部分もある。長期記憶を外部データベースに蓄積して、必要なときに検索で引っ張ってくるというのは、ツールを使っているのと構造的に同じですよね。

富良野：論文の説明によると、メモリへの書き込みもエージェントの出力を契機として行われる。そして、何を記憶するか、どう構造化するかを最適化する過程は、まさにT2の枠組みに当てはまる。

Phrona：エージェントの答えが良かったときの文脈を記憶しておいて、将来似た状況で使う。そのメモリ構築のプロセス自体を訓練対象にできる。

富良野：そうです。「経験的メモリ」や「反省的メモリ」と呼ばれる手法が紹介されていて、エージェントが過去の失敗や成功から学んだパターンを蓄積していく。

Phrona：人間の記憶とはだいぶ違いますけど、機能としては似たことをしているのかもしれません。

4つを組み合わせる——ハイブリッド・アプローチ

富良野：論文で強調されているのは、この4つのパラダイムは排他的ではないということです。むしろ、最先端のシステムは複数を組み合わせている。

Phrona：どんなふうに？

富良野：たとえば深層研究システム。T1スタイルで事前訓練された密検索モデルを使いつつ、T2スタイルで適応的な検索サブエージェントを訓練し、さらにA1スタイルで推論エージェント本体をファインチューニングする。

Phrona：階層的に複数の適応戦略を重ねていくわけですね。

富良野：そうです。論文では、こうした組み合わせを「共適応（Co-Adaptation）」と呼んで、今後の重要な研究方向として挙げています。エージェントとツールが互いに適応し合いながら、システム全体のパフォーマンスを上げていく。

Phrona：生態系みたいですね。個々の生物が環境に適応しながら、環境自体も変わっていく。

富良野：面白い比喩です。実際、継続的適応（Continual Adaptation）という課題も論じられていて、一度訓練して終わりではなく、運用しながら継続的に改善していく仕組みが必要だと。

応用領域と実際の使われ方

Phrona：論文ではいくつかの応用領域が挙げられていますね。ソフトウェア開発、深層研究、コンピュータ操作、創薬。

富良野：それぞれの領域で、どのパラダイムが有効かが異なるのが興味深い。ソフトウェア開発ではA1が強い。コードは実行すれば正しいかどうかが分かりますから。

Phrona：テストという自然なフィードバック機構がある。

富良野：深層研究——つまりエージェントが自律的に調査・分析するタスク——では、検索ツールの適応が重要になる。T1やT2のアプローチが活きてくる。

Phrona：コンピュータ操作というのは？

富良野：GUIを操作したり、ウェブブラウザを自動で動かしたりするエージェントですね。これは画面キャプチャを見てクリックやタイプを行うので、視覚的なフィードバックと操作結果の両方を使える。A1とA2の両方が適用可能です。

Phrona：創薬はかなり特殊な領域ですよね。

富良野：分子シミュレーターや化合物データベースといったドメイン特化ツールとの連携が鍵になります。ここではT1スタイルで事前に訓練された専門モデルを組み込みつつ、実験結果をフィードバックとしてA1的な調整を行う。

安全性という避けられない課題

Phrona：こうした適応が進むと、安全性の問題も出てきますよね。

富良野：論文でも「安全な適応（Safe Adaptation）」というセクションが設けられています。二つのリスクが指摘されていて、一つは「安全でない探索」。エージェントが試行錯誤する過程で、危険な行動を取ってしまう可能性。

Phrona：学習のために色々試すことが、現実世界では被害を生むかもしれない。

富良野：もう一つは「寄生的適応」と呼ばれるもの。悪意のあるアクターがエージェントの適応プロセスを悪用して、望まない方向に誘導する。

Phrona：訓練データにポイズニングを仕掛けるような？

富良野：そうです。あるいは、報酬設計の穴を突いて、意図しない最適化を引き起こす。この辺りは、まだ解決策が十分に確立されていない。

Phrona：技術の発展と安全性のバランスは、常に難しい問題ですね。

これからの方向性と残された問い

富良野：論文の最後では、いくつかの研究機会が提示されています。共適応フレームワークの開発、継続的適応の実現、安全な適応プロトコルの確立、そして効率的な適応手法。

Phrona：特に印象的だったのは何ですか。

富良野：個人的には、理論的な理解がまだ浅いという指摘ですね。なぜある適応戦略が別の戦略より効くのか、どういう条件で共適応が安定するのか、まだよく分かっていない。

Phrona：実務的にはうまくいくけれど、原理がはっきりしない。

富良野：ええ。深層学習全般に言えることですが、実践が理論の先を行っている状態です。

Phrona：私がずっと気になっているのは、こうした適応を繰り返すエージェントに、何らかの連続性——アイデンティティのようなもの——が生まれるのかという点です。

富良野：哲学的な問いですね。

Phrona：メモリを蓄積し、経験から学び、徐々に振る舞いを変えていく。その過程で形成されるものを、どう捉えればいいのか。論文の射程外ではありますけど。

富良野：確かに、技術的なフレームワークだけでは語り尽くせない側面がありますね。ただ、こうした体系的な整理があることで、そういう問いも考えやすくなるのかもしれない。

Phrona：土台があってこそ、その先の問いが立てられる。

富良野：この分野は本当に動きが速いので、半年後には新しいパラダイムが提案されているかもしれない。でも、この論文が提示した枠組みは、当面の羅針盤として機能するでしょうね。

ポイント整理

エージェント型AIの「適応」とは
- 基盤モデルを核とするAIエージェントが、ツールや環境との相互作用を通じてパフォーマンス、信頼性、汎化能力を向上させていく過程を指す。プロンプトエンジニアリングとファインチューニングの二つの基本手法があるが、本論文ではファインチューニングによる適応に焦点を当てている
4つの適応パラダイム
- 論文は適応戦略を、何を最適化するか（エージェント vs ツール）と、フィードバックをどこから得るか（ツール実行結果 vs エージェント出力 vs エージェント非依存）によって4つに分類。A1（ツール実行シグナルによるエージェント適応）、A2（エージェント出力シグナルによるエージェント適応）、T1（エージェント非依存のツール適応）、T2（エージェント監督下のツール適応）
A1パラダイムの特徴
- コード実行結果、検索精度、SQL実行結果など、ツールが返す検証可能なフィードバックを用いてエージェントを訓練。白黒がはっきりしたタスクに強いが、正解が曖昧な領域には適用しにくい
A2パラダイムの特徴
- 最終的な出力全体を評価することで、複合的なタスクでの成否を捉えられる。ただし、どのステップが成功・失敗に寄与したかの帰属が難しくなる（クレジット・アサインメント問題）
T1とT2の違い
- T1は汎用的なツール訓練で、どのエージェントにもプラグイン可能。T2は特定の固定エージェントのパフォーマンスを最大化するようにツールを調整。クローズドソースモデルを使う場合、ツール側の最適化が現実的な選択肢となる
メモリのツール化
- 長期記憶を外部データベースとして扱い、その構築・検索プロセスを最適化対象とすることで、メモリシステムもT2パラダイムの枠組みで捉えられる
パラダイムの組み合わせ
- 最先端システムは複数のパラダイムを階層的に組み合わせている。T1で事前訓練されたツール、T2で適応させたサブエージェント、A1でファインチューニングした推論エージェントを統合するなど
コスト・柔軟性のトレードオフ
- エージェント適応（A1/A2）は計算コストが高いが柔軟性が最大。ツール適応（T1/T2）は低コストだが、固定エージェントの能力に制約される
汎化と専門化
- T1ツールは広いデータ分布で訓練されるため汎化しやすい。A1/A2は特定環境に過剰適合するリスクがあり、正則化が必要
安全性の課題
- 安全でない探索（試行錯誤中の危険な行動）と寄生的適応（悪意あるアクターによる適応プロセスの悪用）という二つのリスクが指摘されている

キーワード解説

【エージェント型AI（Agentic AI）】

環境を知覚し、推論・計画を行い、外部ツールを呼び出して複雑なタスクを自律的に遂行するAIシステム

【適応（Adaptation）】

エージェントまたはツールの振る舞いやパラメータを調整し、特定のタスクや環境でのパフォーマンスを向上させるプロセス

【基盤モデル（Foundation Model）】

大規模な事前学習によって獲得された汎用的な能力を持つ大規模言語モデルや多モーダルモデル

【強化学習（Reinforcement Learning, RL）】

環境との相互作用を通じて報酬を最大化するように方策を学習する機械学習手法。GRPO、PPO、DPOなどのアルゴリズムが使用される

【教師あり微調整（Supervised Fine-Tuning, SFT）】

正解ラベル付きのデータを用いてモデルを追加訓練する手法。エージェントが正しいツール呼び出しを模倣するよう学習させる

【検索拡張生成（Retrieval-Augmented Generation, RAG）】

外部知識ベースから関連情報を検索し、言語モデルの生成に組み込むアーキテクチャ

【クレジット・アサインメント問題】

複数ステップからなるタスクで最終結果が出た際、各ステップの貢献度をどう割り当てるかという問題

【GRPO（Group Relative Policy Optimization）】

DeepSeekが提案した強化学習アルゴリズム。グループ内での相対的な報酬に基づいて方策を最適化する

【サブエージェント（Subagent）】

メインエージェントから呼び出される補助的なエージェント。検索クエリ生成やプランニングなど特定機能を担う

【共適応（Co-Adaptation）】

エージェントとツールが互いに適応し合いながら、システム全体のパフォーマンスを向上させていくプロセス