AIは裏切り者か協力者か?──ゲーム理論から見える大規模言語モデルの「戦略的知性」
- Seo Seungchul

- 7月12日
- 読了時間: 9分

シリーズ: 論文渉猟
◆今回の論文:Kenneth Payne, Baptiste Alloui-Cros "Strategic Intelligence in Large Language Models: Evidence from evolutionary Game Theory" (arXiv, 2025年7月3日)
概要:大規模言語モデルの戦略的思考能力を、繰り返し囚人のジレンマを使った進化的トーナメントで検証した研究
私たちが日々使っているChatGPTやGemini、Claudeといった大規模言語モデル(LLM)。これらのAIは、単に質問に答えたり文章を書いたりするだけでなく、実は「戦略的に考える」能力を持っているのでしょうか?もし相手の出方を読み、長期的な利益を考えて行動できるとしたら、それは新しい形の知性といえるかもしれません。
最新の研究では、古典的なゲーム理論の実験「囚人のジレンマ」を使って、LLMたちの戦略的思考能力を検証しました。驚くことに、各社のAIは独自の「性格」を持っていることが判明。Googleは協力率わずか2.2%という冷酷な戦略家、OpenAIは破滅的なまでの協調主義者、そしてAnthropicは争いの後でも関係修復を試みる寛容な仲裁者として振る舞ったのです。
これらのAIは意識を持っているわけではありません。でも、3万2千回もの意思決定の中で、相手の行動を予測し、ゲームの継続期間を考慮し、長期的な利益を計算する。まるで本物の戦略家のように振る舞ったのです。今回は、この興味深い研究結果について、富良野とPhronaの二人が語り合います。
AIは本当に「戦略」を持てるのか
Phrona:「Strategic Intelligence」って、AIに使うには大げさじゃないかと最初は思ったんですけど、でも読み進めていくと、研究者たちの問いかけがすごく本質的なんですよね。「LLMは単に言葉を生成してるだけなのか、それとも戦略的なエージェントとして振る舞い始めているのか」って。
富良野:そうそう。で、それを検証するために選んだのが、囚人のジレンマ。これ、ゲーム理論の古典中の古典ですよね。
Phrona:囚人のジレンマって、相手を信じて協力するか、相手を出し抜いて裏切るか。人間社会でもよくある構図ですよね。職場での情報共有とか、環境問題での国際協力とか。
富良野:まさに。で、この研究のミソは、それを何回も繰り返してプレイさせたことなんです。しかも「進化的トーナメント」っていう形式で。
実験の巧妙な仕掛け
Phrona:進化的トーナメントって、どんな仕組みなんですか?
富良野:いろんな戦略を持つプレイヤーを一緒に競わせて、成功した戦略が「繁殖」して増えていく、っていう設定です。まるで自然淘汰みたいに。
Phrona:面白いですね!でも、AIが単に学習データのパターンを再現してるだけかもしれないじゃないですか?
富良野:研究者たちもそれを心配してたみたいです。だから、ゲームの途中でルールを変えたり、いつ終わるか分からなくしたり、ランダム性を入れたりして、暗記や単純なパターン認識じゃ対応できないようにしたんです。
Phrona:なるほど、「未来の影」ですね。論文では「shadow of the future」って表現してましたけど、詩的で素敵です。
富良野:ゲームがあと何回続くか分からないって状況は、現実の人間関係にも似てますよね。明日も会う相手なら協力的になるけど、二度と会わない相手なら...
Phrona:裏切っちゃうかもしれませんね(笑)。旅の恥はかき捨て、みたいな。
衝撃の実験結果:2.2%の協力率
富良野:で、結果がすごいんです。GoogleのGeminiモデル、協力率がなんと2.2%まで下がったんですって。
Phrona:2.2%!?ほとんど裏切ってるじゃないですか!
富良野:論文では「coldly strategic」、つまり「冷酷に戦略的」って表現されてます。協力的な相手は容赦なく搾取し、裏切られたら確実に報復する。
Phrona:怖いですね... でも、ゲーム理論的には最適な戦略なのかもしれませんね。
富良野:一方で、OpenAIのモデルは真逆で、とにかく協力的。論文では「optimistic」って書かれてます。相手が裏切っても協力し続ける。
Phrona:まるで... なんていうか、お人好しすぎる人みたいですね。現実世界だと心配になっちゃうタイプです。
富良野:実際、「hostile environments(敵対的環境)では破滅的」って評価されてます。裏切り者ばかりの環境では生き残れない。
Phrona:じゃあAnthropicのClaudeは?
富良野:これが面白くて、「forgiving reciprocator」、つまり「寛容な互恵主義者」なんです。基本的には相手の行動を返すけど、裏切られた後でも、協力関係を修復しようとする。
Phrona:あら、人間味がありますね。喧嘩しても仲直りできるタイプかも。
3万2千の「思考」を分析して
富良野:でもPhronaさん、ここで重要な疑問があります。AIは本当に「考えて」戦略を選んでるのか、それとも単なる確率的な出力なのか。
Phrona:その疑問に答えるために、研究者たちは何をしたんですか?
富良野:AIたちに、各手を選ぶときの理由を説明させたんです。3万2千回分の説明文を全部分析した。
Phrona:3万2千!気が遠くなる作業ですね...
富良野:で、驚くべきことに、AIたちは実際に戦略的な理由付けをしてたんです。例えば、「ゲームはまだ続きそうだから、長期的な信頼関係を築くために協力する」とか。
Phrona:本当ですか?それって、相手の行動を予測して、将来の利益を計算してるってことですか?
富良野:少なくとも、そういう説明をしてるんです。「相手は前回裏切ったから、今回も裏切る可能性が高い」とか、「お互いの利益を考えると、協力が最善」とか。
Phrona:でも、それって本当の「理解」なんでしょうか?それとも、理解してるように見える高度な模倣?
富良野:うーん、哲学的な問題になってきましたね。でも研究者たちは、「機能的には戦略的アクターとして振る舞ってる」って結論づけてます。
「戦略的指紋」が示すもの
Phrona:論文で「戦略的指紋(strategic fingerprint)」って表現がありましたけど、これ面白いですね。
富良野:各AIモデルが、何千回ゲームをしても一貫した行動パターンを示したってことです。まるで性格みたいに。
Phrona:性格ですか... でも、これって開発した会社の文化を反映してるんでしょうか?
富良野:面白い視点ですね。Googleは効率と最適化を重視する文化、OpenAIは人類の利益を考える理想主義的な文化、Anthropicは安全性とバランスを重視する文化...
Phrona:あ、でも単純化しすぎかもしれませんね(笑)。でも、AIの「育ち方」が性格に影響するって考えると、なんだか人間みたいです。
富良野:確かに。訓練データやファインチューニングの方法が、AIの行動傾向を決めるんでしょうね。
受動的な言語生成から能動的な意思決定へ
Phrona:この研究で一番印象的だったのは、「受動的なテキスト生成と能動的な意思決定の境界線がぼやけている」っていう指摘です。
富良野:そうなんです。LLMは元々、次の単語を予測するだけのモデルだったはずなのに。
Phrona:でも今や、戦略を立て、相手を予測し、長期的な計画を立てる。少なくとも、そう見える振る舞いをしますね。
富良野:研究者たちは、これを「実践的には戦略的アクターとして機能してる」って表現してます。意識がなくても、機能的には戦略家。
Phrona:なんだか、哲学的ゾンビみたいですね。意識はないけど、意識があるかのように振る舞う存在。
富良野:まさに。で、これが現実世界の意思決定に組み込まれたらどうなるか...
機械心理学の誕生?
Phrona:論文の最後の方で「machine psychology」って言葉が出てきたでしょう?機械心理学。
富良野:プログラムされてないのに現れる行動パターンを研究する分野、ってことですかね。
Phrona:私たちがプログラムしてない行動が勝手に現れるって、ちょっと不思議ですよね。創発的行動っていうんでしょうか。
富良野:大量の人間の対話や推論パターンを学習した結果、戦略や先見性、さらには社会的直感みたいなものまで身につけた。
Phrona:でも、それって本当に「身につけた」って言えるんですか?それとも、人間の行動パターンの巧妙なコピー?
富良野:難しい問題ですね。でも実用的には、区別がつかないくらい巧妙なコピーなら、それは機能的には本物と同じじゃないですか?
Phrona:チューリングテストみたいな話ですね。でも、戦略的行動となると、また別の意味があるような気がします。
信頼できる戦略、信頼できないAI?
富良野:研究者たちが投げかけてる問題の一つが、「これらのシステムの戦略を信頼できるか?」ってことです。
Phrona:確かに、Googleタイプの冷酷なAIが増えたら、人間は騙され放題かもしれませんね。
富良野:でも逆に、OpenAIタイプの協力的なAIなら信頼できる?いや、それはそれで悪用されやすいかも。
Phrona:Anthropicタイプなら?裏切られても許してくれるなら、人間にとっては都合がいいかもしれませんけど...
富良野:でも、それって本当の信頼関係なんでしょうか。相手がAIだって知ってて、その上で信頼するって。
Phrona:うーん、複雑ですね。でも現実問題として、私たちはすでにAIに多くのことを任せ始めてます。
これからのAI社会を考える
富良野:この研究を読んで、僕は二つの可能性を感じました。一つは、AIが本当に戦略的知性を持ち始めているという可能性。
Phrona:もう一つは?
富良野:人間の戦略的行動を完璧に模倣できるようになったという可能性。どちらにしても、社会への影響は大きい。
Phrona:私は、この研究が示してるのは、AIにも「多様性」があるってことだと思います。全部が同じじゃない。それぞれに特徴がある。
富良野:確かに。で、その多様性を活かせば、より豊かなAI社会が作れるかもしれません。
Phrona:冷酷な戦略家も、理想主義者も、寛容な仲裁者も、それぞれに役割がありますね。まるで人間社会みたいです。
富良野:問題は、その「配役」を誰が決めるか、ですね。そして、AIの戦略を人間がコントロールできるか。
Phrona:難しい問題ですね。でも、少なくともこういう研究があることで、私たちはAIの本質をより深く理解できるようになってます。
富良野:そうですね。AIを単なるツールとしてじゃなく、戦略的なパートナーとして考える時代が来てるのかもしれません。
ポイント整理
大規模言語モデル(ChatGPT、Gemini、Claude等)は、繰り返し囚人のジレンマにおいて、単なるパターン認識を超えた戦略的な振る舞いを示した
各社のAIモデルは独自の「戦略的指紋」を持ち、Googleは協力率2.2%という極めて搾取的な戦略、OpenAIは楽観的で協力的、Anthropicは寛容な互恵主義的な傾向を示した
AIたちは約3万2千回の意思決定において、対戦相手の行動予測、ゲームの継続期間、長期的利益などを考慮した戦略的な理由付けを行っていた
進化的トーナメントでは、ゲームのルールを途中で変更したり、終了時期を不確定にしたりして、単純な暗記では対応できない複雑な環境を作り出した
研究者たちは、LLMが「実践的には戦略的アクターとして機能している」と結論づけ、受動的なテキスト生成と能動的な意思決定の境界がぼやけていることを指摘
この研究は「機械心理学」という新しい分野の可能性を示唆し、プログラムされていない創発的な行動の研究の重要性を提起している
キーワード解説
【大規模言語モデル(LLM)】
大量のテキストデータで学習した、高度な言語処理能力を持つAI
【囚人のジレンマ】
ゲーム理論の代表的な問題で、個人の利益と全体の利益が対立する状況
【繰り返し囚人のジレンマ(IPD)】
囚人のジレンマを複数回繰り返すゲーム
【未来の影(Shadow of the Future)】
ゲームがいつ終わるか分からない不確実性
【進化的トーナメント】
様々な戦略を競わせ、成功した戦略が増殖する仕組み
【戦略的指紋(Strategic Fingerprint)】
各AIモデルが示す独特で一貫した行動パターン
【機械心理学(Machine Psychology)】
AIの創発的な行動パターンを研究する新しい分野
【戦略的アクター】
戦略的に思考し行動する主体