top of page

ディープリサーチエージェントの登場を振り返る──2025年のAI混戦状況の俯瞰

シリーズ: 論文渉猟


◆今回の論文: Yuxuan Huang et al. "Deep Research Agents: A Systematic Examination And Roadmap" (arXiv, 2025年6月22日)

  • 概要:ディープリサーチエージェントの技術的基盤、アーキテクチャ、評価方法、今後の課題を包括的に分析した最新の調査論文


2025年に入って、AI業界に大きな変化が起きています。OpenAI、Google、Perplexityなどの企業が次々と発表している「ディープリサーチエージェント」は、従来の情報検索を大きく超えた能力を持っています。これらのシステムは、人間の研究者が行うような複数段階の思考プロセスを模倣し、数時間かかる調査作業をわずか数分で完了させることができるのです。


しかし、この急速に発展する分野は、あまりにも新しく、技術的な全体像が見えにくい状況でした。そんな中、2025年6月に発表された包括的な調査論文「Deep Research Agents: A Systematic Examination And Roadmap」が、この混沌とした状況を初めて学術的に整理しました。この論文は、生まれたばかりの技術分野を体系化し、将来研究の基盤を築く重要な役割を果たしています。


では、ディープリサーチエージェントとは具体的に何なのか。従来のRAG(検索拡張生成)やツール利用システムとどう違うのか。そして、この分野の技術的課題と未来の可能性は何なのか。この記事では、最新の調査論文をもとに、AI研究の最前線で起きている革命的な変化を探っていきます。



この分野の混沌とした状況を整理する


富良野:2025年に入ってから、AIエージェントの世界がすごく騒がしくなってますよね。各社がディープリサーチエージェントを発表してるけど、正直、全体像が見えにくい状況でした。


Phrona:そうなんです。OpenAIが2月にDeep Researchを発表して、GoogleがGemini Deep Research、PerplexityやxAIも続いた。でも、みんな「すごい」って言うばかりで、技術的にどう分類すべきか整理されてなかったんです。


富良野:そこで今回の調査論文が重要になってくる。12名の研究者が、この混沌とした状況を初めて学術的に体系化したんですね。従来のRAGは基本的に検索して答えを生成するという一方向的な流れでしたが、DRエージェントは根本的に違う。


Phrona:動的な推論、適応的な計画、多段階の情報検索、反復的なツール利用を組み合わせている。言ってみれば、人間の研究者が実際にやっている思考プロセス全体の自動化を目指してるんです。単なる技術的改良じゃなくて、新しいパラダイム。


富良野:具体的には、例えばOpenAIのディープリサーチなんかは、まずユーザーの意図を確認してから研究戦略を立てて、それを実行しながら修正していく。この適応性がRAGにはなかった部分ですね。


Phrona:Geminiのディープリサーチも面白くて、ユーザーが研究計画を確認して修正できるようになってる。つまり、人間との協働を前提にしたシステム設計なんです。これって、単純な自動化じゃなくて、人間の知的活動を拡張する方向性ですよね。


論文が提案する統一的な分類フレームワーク


富良野:論文の一番の貢献は、各社がバラバラに実装してたシステムを統一的に分類したことですね。三つの軸で整理してる。


Phrona:ワークフロー特性が静的か動的か、計画戦略がどうなってるか、単一エージェントかマルチエージェントか。これで各社のアプローチが整理できるようになった。


富良野:情報取得の方法も二つに分類してますね。API経由での検索と、ブラウザベースの探索。API経由は効率的だけど、JavaScriptで動的に生成されるコンテンツや認証が必要なサイトにはアクセスできない。


Phrona:一方でブラウザベースだと、実際にページを開いて人間のように操作できるから、より幅広い情報にアクセスできる。ManusのAIエージェントなんかは、サンドボックス化されたChromeインスタンスを使って、タブを開いたり、フォームに入力したり、PDFをダウンロードしたりできる。


富良野:でも、ブラウザベースは遅いし、リソースも食うし、ページの変化に対して脆弱だったりする。だから論文では、効率性と網羅性のバランスを取るハイブリッドなアプローチが重要だって指摘してますね。


企業実装の比較分析


富良野:論文では各社の実装も詳しく分析してるんですよね。計画戦略だけでも三つのパターンに分類してる。


Phrona:OpenAIは意図確認型で、まずユーザーに質問して目的を明確にしてから計画を立てる。Geminiは統合型で、仮の計画を作ってからユーザーに確認を求める。どちらも人間との協働を前提にしたシステム設計なんです。


富良野:Grokのディープサーチはまた違った特徴があって、信頼性評価モジュールを使って低品質な情報をフィルタリングしながら、並行して複数の推論サブタスクを実行してる。


Phrona:この辺りの分析は、論文の大きな価値だと思います。各社がバラバラに開発してたものを、共通の枠組みで比較できるようになった。これで初めて、どのアプローチが効果的なのか議論できるようになったんです。


最適化手法の体系化と強化学習


富良野:論文では最適化手法も三つのカテゴリーに整理してますね。プロンプトベース、教師ありファインチューニング、そして強化学習。


Phrona:プロンプトベースは手軽だけど、モデルの本来の能力に制約される。一方で強化学習を使ったAgent-R1やSearch-R1みたいなシステムは、検索クエリの生成から情報の推論まで、エンドツーエンドで最適化してる。


富良野:報酬設計も工夫されていて、最終的な正解だけじゃなくて、ツール選択の適切性や推論の効率性も評価してる。これって、従来のQAタスクとは根本的に違った評価軸ですよね。


Phrona:そうそう。最近はPPOよりもGRPO(Group Relative Policy Optimization)を使う事例が増えてる。グループ相対的な利得計算で報酬空間を拡張して、より豊かな勾配情報が得られるようになる。論文では、こういう最新の技術動向も整理されてるんです。


評価の問題点を初めて指摘


富良野:この論文で初めて系統的に指摘されたのが、評価の問題ですね。従来のQAベンチマークだと、モデルがすでに知識として持ってる内容をテストしてしまう可能性がある。


Phrona:そうなんです。WikipediaベースのQAタスクなんかは、大規模言語モデルの訓練データに含まれてる可能性が高いから、本当の研究能力を測れない。OpenAIのBrowseCompみたいに、オンラインでしか見つけられない情報を使ったベンチマークが必要って指摘してる。


富良野:でも、もっと根本的な問題もありますよね。DRエージェントの本来の目的は構造化された研究レポートの生成なのに、現在の評価指標は情報検索やツール利用の正確性にばかり注目してる。


Phrona:まさに。多様な情報源からの証拠統合、モーダル間の合成、談話レベルの組織化といった高次の能力が評価されてない。この分野がまだ生まれたばかりだからこそ、こういう本質的な問題を早めに指摘することが重要なんです。


将来研究の方向性を提示


富良野:論文の最後で提示されてる将来研究の方向性も興味深いです。情報源の拡大、非同期並列実行、自己進化機能、マルチエージェント協調の最適化。


Phrona:情報源の拡大では、MCPみたいな標準化されたプロトコルが重要になりそう。あと、AI専用ブラウザの開発も注目ですね。BrowserbaseやComet for Perplexityみたいに、プログラム制御に最適化されたブラウザがあれば、効率的に多様な情報源にアクセスできる。


富良野:非同期並列実行は大きな課題ですね。現在の多くのシステムは線形的なタスク実行に依存してるけど、DAG(有向非環グラフ)ベースの並列処理とか、強化学習による動的スケジューリングエージェントとかが必要になってくる。


Phrona:自己進化の概念も面白い。AgentRxivみたいに、エージェント同士が研究成果を共有して学習していく仕組み。パラメータを更新せずに、外部メモリやワークフローの最適化で能力を向上させていく。これって、人間の研究コミュニティに近い学習方法かもしれません。


富良野:でも根本的には、人間のような協働的な知的活動をAIシステムでどう実現するかという問題ですよね。この論文が提示したフレームワークが、今後の研究の土台になるんじゃないでしょうか。



ポイント整理


  • 論文の最大の貢献

    • 2025年に急速発展した新分野を初めて体系的に分析・分類したサーベイ論文

  • 統一的分類フレームワーク

    • ワークフロー特性(静的vs動的)、計画戦略、エージェント構成による三軸分類

  • 産業実装の比較分析

    • OpenAI、Google、Perplexity、xAI等の主要企業実装を技術的視点から整理

  • 情報取得手法の体系化

    • API型(効率的だが制限あり)とブラウザ型(包括的だが重い)の特徴分析

  • 最適化手法の整理

    • プロンプトベース、教師ありファインチューニング、強化学習の三カテゴリー化

  • 評価問題の初指摘

    • 従来QAベンチマークでは不十分、構造化レポート生成能力の評価指標が必要

  • 将来研究方向の提示

    • 情報源拡大、並列実行、自己進化機能、マルチエージェント協調の課題整理

  • 研究基盤の構築

    • 混沌とした新分野に共通言語・概念を提供し、今後の研究方向を指針


キーワード解説


【ディープリサーチエージェント】

複雑な研究タスクを自動化するLLMベースのAIシステム


【RAG(検索拡張生成)】

外部知識を検索して生成に活用する従来手法


【MCP(Model Context Protocol)】

LLMエージェントが外部サービスと連携するための標準化プロトコル


【GRPO(Group Relative Policy Optimization)】

グループ相対的利得計算による強化学習最適化手法


【DAG(有向非環グラフ)】

タスク間の依存関係を表現する並列実行フレームワーク


【自己進化】

パラメータ更新なしに外部メモリやワークフローを最適化する学習パラダイム


【階層的強化学習】

複数の階層で報酬メカニズムを設計するマルチエージェント最適化手法


【AI専用ブラウザ】

プログラム制御に最適化されたウェブブラウジング環境


本稿は近日中にnoteにも掲載予定です。
ご関心を持っていただけましたら、note上でご感想などお聞かせいただけると幸いです。
bottom of page