AIに「仮想パソコン」を与えたら、勝手に進化し始めた──コード以外のタスクで知性が目覚める新しい学習パラダイム

Seo Seungchul
2月10日
読了時間: 16分

更新日：2月16日

シリーズ: 論文渉猟

◆今回の論文：Daixuan Cheng et al., "LLM-in-Sandbox Elicits General Agentic Intelligence" (arXiv, 2026年1月22日）

概要： LLMに仮想コンピュータ環境（サンドボックス）を与えることで、コード以外の領域でも汎用的な知能を引き出せることを実証した研究。追加訓練なしでもLLMが自発的に外部リソースへのアクセス、ファイル管理、スクリプト実行を行うことを発見し、さらにサンドボックス内での強化学習手法（LLM-in-Sandbox-RL）を提案。数学、物理、化学、生命医学、長文理解、指示追従など多様な領域で性能向上を確認。Pythonパッケージとしてオープンソース化されている。

もし、AIに自分専用のパソコンを一台まるごと渡したら、何が起こるでしょうか。ファイルを自由に作ったり、必要なソフトをインストールしたり、ネットで調べものをしたり——そんな環境を手にしたAIは、教えられていないことまで自分で学び始めるかもしれません。

中国人民大学やマイクロソフト・リサーチ、清華大学の共同研究チームが2026年1月に発表した論文「LLM-in-Sandbox」は、まさにそうした可能性を示しています。大規模言語モデル(LLM)に仮想的なコンピュータ環境——「サンドボックス」と呼ばれる隔離された実行空間——を与えると、プログラミング以外の分野でも性能が大きく向上することがわかりました。数学では最大24.2%、指示追従タスクでは14.4%もの改善。追加の訓練なしに、AIは自発的に外部リソースを探し、ファイルを活用し、スクリプトを実行して問題を解決し始めたのです。

この研究は、AIの能力を引き出す新しいパラダイムを提案しています。従来の「道具を使わせる」アプローチから、「環境そのものを与える」という発想への転換。富良野とPhronaの対話を通じて、この研究が示唆するAIと人間の協働の未来、そして「汎用知能」への道筋を探っていきます。

コンピュータという「万能の道具」

富良野：今回の論文、タイトルを見た瞬間に「これは面白い」と思いました。サンドボックスって、ソフトウェア開発では馴染みのある概念ですけど、それをコード以外のタスクに使うっていう発想がね。

Phrona：サンドボックスって、子どもの砂場と同じ語源ですよね。閉じた安全な空間で自由に遊べる。AIにとっての砂場を用意したら何が起きるか、という実験ですね。

富良野：そう、まさにそれです。この研究の出発点になっているのが、「コンピュータは人類が作った最も汎用的なプラットフォームだ」という認識なんです。あらゆるタスクがコンピュータを通じて達成できる。それはなぜかというと、三つのメタ能力があるから。

Phrona：外部リソースへのアクセス、ファイル管理、コード実行。この三つですね。

富良野：ええ。で、これをLLMに丸ごと渡してみたらどうなるか。従来のツール使用型のアプローチ——「電卓を使いなさい」「検索エンジンを使いなさい」と個別に道具を渡すやり方とは、根本的に違うわけです。

Phrona：道具を渡すのではなく、道具箱ごと、いや、工房ごと渡してしまう感じでしょうか。必要な道具は自分で見つけてね、と。

富良野：そんなイメージですね。工房の中には旋盤もあればハンマーもある。何を使うかはAI自身が決める。そして驚くべきことに、追加の訓練なしに、AIはそれを自発的にやり始めたんです。

数字が語る——どれくらい性能が上がったのか

Phrona：具体的にはどのくらいの効果があったんですか？

富良野：論文には7つのモデルを6つの領域でテストした結果が載っています。たとえばQwen3-Coderという30億パラメータのコード特化モデルは、数学で17.9%から42.1%へと24.2ポイントも改善した。物理でも36.8%から47.9%へ11.1ポイント上昇しています。

Phrona：追加の訓練なしでそこまで変わるんですね。

富良野：ClaudeやGPT-5、DeepSeekといった最先端モデルでも一貫して向上が見られました。Claudeは指示追従タスクで59.3%から72.0%へ12.7ポイント改善。DeepSeekも同じタスクで60.3%から74.7%へ14.4ポイント上がっている。

Phrona：ただ、すべてのモデルで効果があったわけではないんですよね？

富良野：鋭いところを突きますね。Qwen3-4B-Instructという小さなモデルでは、むしろ性能が下がったケースが多い。数学で41.3%から35.4%へ、長文理解に至っては30.8%から5.8%へと大幅に悪化しています。

Phrona：サンドボックスという「自由」が、弱いモデルにとっては「迷路」になってしまった、ということでしょうか。

富良野：まさにそうです。論文の分析によると、弱いモデルはサンドボックス内で「さまよっている」状態だった。平均で23.7ターンも費やしながら、実際に三つの能力を使った割合は3%未満。対して強いモデルは12.6ターンで、能力使用率は6〜21%に達している。

自発的に現れた行動パターン

Phrona：強いモデルは具体的にどんな行動をとったんですか？

富良野：論文には詳細な軌跡——AIの行動ログですね——が載っています。化学の問題で特に面白い事例がありました。化合物名からその分子特性を予測する問題なんですが、まずRDKitという化学ライブラリをインストールしようとする。でもNumPyのバージョン競合でエラーになる。

Phrona：人間がプログラミングするときにもよく起きますよね、依存関係の問題。

富良野：そこからが興味深いんです。AIは方針を切り替えて、Javaのランタイムをapt-getでインストールし、OPSINという化学名変換ライブラリをGitHubから直接ダウンロードした。最終的にIUPAC名——化学物質の国際命名規則に基づく名前——をSMILES表記——分子構造を文字列で表す方式——に変換することに成功しています。

Phrona：エラーに遭遇して、別のアプローチを探索する。問題解決の基本的なパターンですけど、それを自発的にやっているわけですね。

富良野：二つ目の事例は長文理解タスクです。100Kトークンを超える産業レポートから特定の情報を抽出する問題で、AIはまずlsコマンドでファイル一覧を確認し、grepで「infringement」——違反通知という意味ですね——を含む行を検索。該当箇所を特定したらsedで前後の行を表示して文脈を確認し、最終的にPythonスクリプトを書いて情報を体系的に抽出しています。

Phrona：人間がレポートを読むときの行動そのものですよね。全部を読むのではなく、まず目次を見て、関連しそうな部分を探して、そこを精読する。

富良野：三つ目は指示追従タスク。「中世の歴史について三つの文を書け。ただし、すべての文は同じ文字数で、かつ完全に異なる単語を使うこと」という、人間でも難しい制約付きの課題です。

Phrona：それは純粋なテキスト生成では相当難しそう。

富良野：AIはまずhelper.pyというスクリプトを書いて、文字数カウントと単語の重複検出を実装した。試しに生成した文をチェックしたら「the」が重複していることが判明。そこで制約を満たす組み合わせを組み合わせ探索するgenerate.pyを書いて、363個の候補を見つけ出しています。

タスクによって変わる戦略

Phrona：AIがタスクの性質に応じて戦略を変えているというのは、かなり重要な発見ですよね。

富良野：論文にはドメインごとの能力使用率の分析があります。化学タスクでは外部リソースへのアクセスが18.4%と最も高い。専門パッケージをインストールする必要があるからですね。一方、長文理解では外部リソースは0.2%に過ぎず、ファイル操作が26.2%を占めている。

Phrona：手元にある情報をどう処理するかに集中している、と。

富良野：数学タスクでは計算操作が43.4%と突出して高い。数値計算で解を検証するパターンが多いようです。興味深いのは平均ターン数で、長文理解は27.2ターンと最も多く、生命医学は6.5ターンと最も少ない。

Phrona：生命医学で改善が不安定だった理由もそこにありそうですね。サンドボックスを十分に活用できていない。

富良野：論文でもその点に言及しています。探索が短いということは、サンドボックスの利点を引き出せていない可能性がある、と。

弱いモデルを強くする——サンドボックス内強化学習

Phrona：でも、弱いモデルをそのままにしておくのはもったいない気がします。何か手はないんでしょうか。

富良野：そこで提案されているのが「LLM-in-Sandbox-RL」——サンドボックス内での強化学習です。これがすごくユニークなんですよ。

Phrona：強化学習というと、報酬を与えて行動を修正していく学習方式ですね。

富良野：ここがポイントなんですが、この手法は「エージェント用のデータ」を使わないんです。普通の文脈理解タスク——たとえば文章を読んで質問に答えるようなタスク——のデータを使う。ただし、その文脈をプロンプトに直接入れるのではなく、サンドボックス内のテキストファイルとして配置する。

Phrona：つまり、答えを得るためにはまずファイルを開いて読まないといけない状況を作る、と。

富良野：はい。しかも、一つのファイルだけでなく、複数のファイルに分割したり、関係のないファイルを「かく乱要素」として混ぜたりする。論文の例では、research paperをintroduction.txt、methods.txtなどに分割したり、report_2021.txtの横にreport_2019.txt、report_2020.txtを置いたりしています。

Phrona：図書館で必要な本を探すようなものですね。棚には関係ない本も並んでいる中から、必要な情報を見つけ出す。

富良野：結果の正否だけを報酬として与える。途中のステップは一切教えない。それでも、モデルは自力でファイルを探索し、必要な情報を抽出する方法を学んでいく。

Phrona：で、その効果は？

富良野：Qwen3-4B-Instructで見ると、サンドボックスモードでの長文理解が5.8%から16.8%へ、指示追従が28.7%から37.7%へ改善しています。しかも、この訓練は汎化する。文脈理解タスクで訓練したモデルが、化学や数学といった全く別の領域でもサンドボックスを効果的に使えるようになる。

Phrona：訓練データとテスト領域に重複がないのに効果が出る、というのは驚きですね。

富良野：もう一つ面白いのは、サンドボックスモードでしか訓練していないのに、通常のLLMモード——サンドボックスなしの直接生成——でも性能が上がったこと。エージェント的なスキルが非エージェント的な生成にも転移している。

長文処理の革命——8倍のトークン削減

Phrona：実用面ではどうなんでしょう。サンドボックス環境を維持するコストは？

富良野：これが意外な発見でした。論文には詳細な効率分析があるんですが、長文タスクでは劇的にトークン消費が減る。Qwenモデルで見ると、通常のLLMモードでは102.9Kトークンかかっていたものが、サンドボックスモードでは12.9Kトークンに。約8倍の削減です。

Phrona：プロンプトに全部入れる代わりに、ファイルとして置いておけばいいから？

富良野：そうです。しかも、サンドボックスからの出力トークン——コード実行結果など——は全体の37〜51%を占めるんですが、その処理時間は全体の4%未満。モデルが生成するトークンは一つずつ逐次的に出力しなければいけないのに対し、環境からのトークンは一括で処理できるからです。

Phrona：全体のスループット——単位時間あたりの処理量——はどうなんですか？

富良野：モデルによりますが、MiniMaxでは2.2倍の高速化、他のモデルでも0.6〜1.1倍と競争力のある水準です。ストレージも、従来のソフトウェアエンジニアリング用エージェントが数テラバイトの環境イメージを必要としたのに対し、LLM-in-Sandboxは約1.1GBの汎用イメージ一つで済む。

テキストを超えて——動画も音楽も作れる

Phrona：論文の後半では、テキスト以外の出力についても触れていますよね。

富良野：これはある意味で一番エキサイティングな部分かもしれません。LLMは本来「テキストを入力してテキストを出力する」モデルですが、サンドボックスがあれば、実際のファイルを生成できる。

Phrona：具体的には？

富良野：四つの事例が紹介されています。まず「東京三日間の旅行プラン」というリクエストに対して、Leaflet.jsをインストールし、12箇所の観光スポットをマーカーとルートで示したインタラクティブな地図HTMLを生成。

Phrona：地図アプリみたいなものを、言葉だけの指示から作れる、と。

富良野：二つ目は「AGI Summit 2026」というイベントのポスター作成。JSONファイルでイベント詳細を渡すと、SVGでレイアウトをデザインし、CairoSVGでPNGに変換して出力する。三つ目は誕生日のカウントダウン動画。PILで360フレームを生成し、moviepyで30fpsの11秒動画にコンパイルしています。

Phrona：四つ目は？

富良野：「イ短調の穏やかなピアノ曲」という指示から、midiutilでメロディと和音を作曲し、FluidSynthでオーディオに変換。MIDIファイル、WAVファイル、楽譜のMarkdownまで出力しています。

Phrona：テキスト生成AIが、実際の成果物を作れるようになる。それはかなり大きな転換ですね。

富良野：論文でも、現時点では限界があることを認めています。動画は単純なアニメーションに留まるし、作曲も人間の表現力には及ばない。でも、可能性を示したという点では大きい。

環境を与えることで引き出される知性

Phrona：この研究を見ていて思うのは、「知性」とは何かという問いですね。従来のAI研究は、知識をどれだけ詰め込むか、推論能力をどう鍛えるか、という方向に注力してきた。

富良野：そうですね。でもこの研究は、環境を整えることで潜在的な能力が発現する可能性を示唆している。

Phrona：人間の発達心理学でも似たような議論がありますよね。ピアジェの認知発達理論では、子どもは環境との相互作用を通じて知性を発達させる。ヴィゴツキーは「最近接発達領域」——一人ではできないけれど、適切な支援があればできるようになる範囲——という概念を提唱しました。

富良野：AIにとってのサンドボックスが、まさにその「適切な支援」なのかもしれない。能力は潜在的にあったんだけど、発揮する環境がなかった。

Phrona：論文の中で印象的だったのは、長文処理の比較実験です。同じサンドボックスモードでも、文脈をプロンプトに直接入れる場合と、ファイルとして配置する場合で、後者のほうが平均で35.6%から48.9%へと大きく改善した。

富良野：Claudeに至っては11.9%から61.8%へ。これは興味深い。モデルがファイルシステムを使って情報を整理することで、より効果的に処理できるようになる。人間が外部記憶——メモやノート——を使って認知負荷を下げるのと同じメカニズムかもしれません。

Phrona：拡張認知——心や知性が脳の中だけでなく、環境や道具を含めたシステム全体に広がっているという考え方——を思い出します。

汎用知能への道筋

富良野：論文の結論部分では、将来の展望が三つ挙げられています。まず「デフォルトのインフラとしてのサンドボックス」。分析タスクは検証可能な計算を、長文タスクはファイルベースの管理を、創作タスクは実際の成果物を得られる。LLMをテキスト生成器から汎用のデジタルワーカーに変える、と。

Phrona：二つ目は？

富良野：「エージェント能力のベンチマークとしてのサンドボックス」。LLMモードとサンドボックスモードの差——論文では「Δ」と表記しています——が、そのモデルがどれだけ計算環境を活用できるかを測る指標になる。単なるタスク性能では見えないエージェント的な潜在能力を可視化できる、と。

Phrona：三つ目は？

富良野：「サンドボックスネイティブなモデルの訓練」。サンドボックスとの相互作用を、事後的な強化学習だけでなく、事前訓練の段階から組み込むべきだ、という提案です。

Phrona：ただ、私がずっと気になっているのは、AIが「自発的に」行動しているように見えることの意味です。本当に自発的なのか、それとも訓練データの中にそうした行動パターンが含まれていたから再現しているだけなのか。

富良野：それは本質的な問いですね。この研究では、追加訓練なしに新しい行動が現れたことを強調している。でも、事前訓練でコード実行やファイル操作のデータに触れていた可能性はある。

Phrona：つまり、「自発性」というより「潜在能力の発現」と言ったほうが正確かもしれない。

富良野：そうかもしれません。ただ、それでも十分に興味深い。適切な環境さえ整えれば、明示的に教えなくても能力が表に出てくる。それは、人間の教育や組織設計にも通じる洞察ではないでしょうか。

Phrona：環境を整えることの重要性、ですね。私たちは、人やAIの能力を引き出すとき、何を教えるかだけでなく、どんな環境を用意するかを考えるべきなのかもしれません。

ポイント整理

LLM-in-Sandboxの基本概念
- 大規模言語モデルにDockerコンテナベースの仮想コンピュータ環境を与え、外部リソースアクセス、ファイル管理、コード実行という三つのメタ能力を自由に使わせることで、コード以外の領域でも汎用的な知能を引き出すアプローチ。軽量な汎用イメージ（約1.1GB）で多様なタスクに対応可能
実験で確認された性能向上
- 7つのモデル（Claude-Sonnet-4.5-Think、GPT-5、DeepSeek-V3.2-Thinking、MiniMax-M2、Kimi-K2-Thinking、Qwen3-Coder-30B-A3B、Qwen3-4B-Instruct）を6領域（数学、物理、化学、生命医学、長文理解、指示追従）でテスト。数学で最大+24.2%（Qwen3-Coder）、指示追従で+14.4%（DeepSeek）などの改善を確認
自発的行動の三パターン
- (1) 外部リソースアクセス——化学タスクでJavaランタイムとOPSINライブラリを自分でインストール、(2) ファイル管理——長文タスクでgrep、sedを使った効率的な情報探索、(3) 計算操作——指示追従タスクで制約充足のための組み合わせ探索スクリプトを作成
タスク別の能力使用パターン
- 化学では外部リソースアクセス18.4%、長文理解ではファイル操作26.2%、数学では計算操作43.4%と、AIはタスクの性質に応じて戦略を変化させる。平均ターン数も長文理解27.2回、生命医学6.5回と大きく異なる
強いモデルと弱いモデルの差
- 強いモデルは平均12.6ターンで能力使用率6〜21%、弱いモデル（Qwen3-4B）は23.7ターンで使用率3%未満。弱いモデルはサンドボックス内で「さまよう」状態になり、かえって性能が低下
LLM-in-Sandbox-RL
- サンドボックス内での強化学習手法。汎用的な文脈理解タスクのデータを使用し、文脈をファイルとしてサンドボックス内に配置（複数ファイル分割やかく乱要素の追加）。結果の正否のみを報酬として与え、モデルは自力で環境探索能力を獲得。訓練データと無関係な領域（数学、化学、SWE等）にも汎化
効率性分析
- 長文タスクでトークン消費を最大8倍削減（Qwenで102.9K→12.9K）。環境トークンは全体の37〜51%を占めるが処理時間は4%未満。スループットはMiniMaxで2.2倍高速化。ストレージは従来のSWEエージェント（数TB）に対し約1.1GBで済む
テキストを超える能力
- 旅行プランからインタラクティブ地図HTML、イベント情報からポスターPNG、テーマ設定から誕生日動画MP4、スタイル指定からピアノ曲WAVなど、実際のファイル生成が可能に
将来展望
- (1) サンドボックスをLLMサービングのデフォルトインフラに、(2) Δ（サンドボックスモード−LLMモード）をエージェント能力のベンチマーク指標に、(3) サンドボックス相互作用を事前訓練段階から組み込んだモデル開発へ

キーワード解説

【サンドボックス（Sandbox）】

隔離された安全な実行環境。本研究ではDockerコンテナベースのUbuntuシステムとして実装。execute_bash（コマンド実行）、str_replace_editor（ファイル編集）、submit（完了通知）の三つのツールを提供

【大規模言語モデル（LLM: Large Language Model）】

大量のテキストデータで訓練された言語処理AIモデル。GPT、Claude、DeepSeekなどが代表例。自然言語の理解と生成に優れる

【エージェント型AI（Agentic AI）】

複数のターンにわたって自律的に判断し、道具を使い分けながらタスクを遂行するAI。単なる質問応答ではなく、能動的に行動を選択する

【ReActフレームワーク】

LLMに推論（Reasoning）と行動（Acting）を交互に行わせるアプローチ。環境からのフィードバックを受けて次の行動を決定する

【強化学習（Reinforcement Learning）】

行動の結果として得られる報酬を最大化するように学習する機械学習手法。LLM-in-Sandbox-RLでは最終出力の正否のみを報酬とする結果ベースの報酬設計を採用

【文脈内学習（In-Context Learning）】

追加訓練なしに、プロンプト内の例示だけで新しいタスクに適応するLLMの能力

【思考の連鎖（Chain of Thought）】

LLMに段階的な推論を促すプロンプト技術。中間ステップを明示的に生成させることで複雑な問題の正答率が向上

【SMILES表記】

Simplified Molecular Input Line Entry Systemの略。分子構造を一行の文字列で表現する記法。化学情報処理で広く使用

【IUPAC名】

国際純正・応用化学連合が定めた化学物質の命名法に基づく名称

【OPSIN】

化学名をSMILES等の機械可読形式に変換するオープンソースライブラリ

【汎化（Generalization）】

訓練データに含まれない新しい状況やタスクに対しても学習した能力を適用できること

【拡張認知（Extended Cognition）】

認知プロセスが脳内だけでなく、環境や道具を含めたシステム全体に及ぶとする認知科学の理論