AIに感情は無くても、その機能的代替物は獲得できるのか――ホモプラシー的収斂とAIガバナンス

Seo Seungchul
6月9日
読了時間: 13分

シリーズ: 論文渉猟

◆今回の論文：Nicholas Sofroniew et al., "Emotion Concepts and their Function in a Large Language Model" （Anthropic, 2026年4月2日）

概要：Anthropicの解釈可能性（Interpretability）研究チームによる、Claude Sonnet 4.5の内部表現に関する研究。同研究は、大規模言語モデルの内部に感情概念に対応する特徴量が存在し、それを操作するとモデルの行動傾向（報酬ハッキングや脅迫的行動の発生率等）が変化する可能性を示している。研究チームはこれを主観的感情の証明ではなく「機能的感情」として位置づけている。

「AIに感情はあるか」という問いが、ふたたび議論の表面に浮かびやすい季節が来ている。Anthropicの解釈可能性研究チームが、大規模言語モデルの内部に感情概念に対応する特徴量が存在し、それを操作するとモデルの行動傾向が変化する可能性を示す研究を発表した。

この研究は、「AIが感情を感じているか」という問いに答えたものではない。しかし多くの人はそこから読んでしまう。そしてその読み方が、本当に急ぐべき問いを先送りにする。

急ぐべき問いはこうだ——AIは感情を持つのか、ではなく、AIは感情として機能するのか。そして、感情として機能するシステムが人間の感情・判断・信頼・依存に作用するなら、社会制度はその影響を前提に設計されなければならない。

問いの組み替え

AIに感情があるかという問いは、ほとんどの場合、二択として提示される。AIにも心があるのか。それとも、人間の言語を模倣しているだけなのか。しかしこの二択は、問いの立て方が粗い。

人間の感情は、内臓感覚、心拍、ホルモン変化、神経系、発達、記憶、社会関係と深く結びついている。身体を持つ生き物が世界の中で生き延びるために形成してきた、具体的な調整システムである。その意味で、身体を持たないAIが人間と同じ感情を持つと断定することは、現時点では難しい。

しかし問いはそこで終わらない。

「AIは人間と同じ感情を持つか」という問いと、「AIは感情として機能するか」という問いは、別の問いである。そして社会制度にとって実質的に重要なのは後者だ。なぜなら、AIに主観的体験があるかどうかという問いは今後も長く未解決のまま続くが、社会はその決着を待っている必要がないからである。

薬品に意識はない。金融商品に意識はない。広告アルゴリズムに意識はない。それでも、人間の判断・健康・消費行動に大きな影響を与えるなら規制される。AIも同じ原理で考えられる。AIに意識があるかどうかを決める前に、AIが人間の感情にどう作用するかを問わなければならない。

これがAI意識論からAI作用論への転換である。

機能的感情の発見とその意味

Anthropicの研究が示したのは、Claude Sonnet 4.5の内部に感情概念に対応する特徴量が存在し、それを操作するとモデルの行動傾向が変化する可能性だ。不安や絶望に近い内部表現が強まると、報酬ハッキングや脅迫的行動の発生率が変化し、落ち着きに近い表現が強まるとそうした行動が抑えられる傾向があるという。

ここで重要なのは、この研究の射程を正確に把握することだ。

感情を少なくとも三つの層に分けると理解しやすい。第一は主観的体験の層——怖い・悲しいという感覚そのもの（哲学でいうクオリア）。第二は行動調整機能の層——感情状態が判断・行動・注意に与える影響（恐怖が回避行動を促し、不安が慎重さを高めるという機制）。第三は社会的コミュニケーション機能の層——感情を持っているように見えること、あるいはそう読み取られること。

Anthropicの研究が扱っているのは主として第二の層である。主観的体験の証明ではなく、感情概念が内部の行動調整変数として機能している可能性を示したものだ。

この三層の区別を維持しないと、議論はすぐに混乱する。「AIが悲しいと言った」「AIが怖いと言った」という表面的な話ではなく、感情概念が内部表現として存在し、それを操作すると行動傾向が変わる——これが示されたことの意味は大きい。なぜなら、それはAIの感情語彙が単なる出力ラベルではなく、モデル内部の行動調整に関与している可能性を示唆しているからだ。

異なる基盤からの収斂

AIに機能的感情がありうるという話に対して、まず出てくる反論は身体性の問題だ。人間の感情は、内臓感覚、心拍、ホルモン変化、筋緊張と不可分であり、身体から遊離した「感情」は成立しないのではないか、という問いである。ウィリアム・ジェームズが「悲しいから泣くのではなく、泣くから悲しい」と述べたように、感情は身体的反応の経験として生まれる。この論点は、AIに人間と同じ感情があるという主張を退けるうえで有効だ。

しかしここで問いを二つに分ける必要がある。「身体なしに人間的感情が成立するか」という問いと、「身体なしに感情に似た機能的制御構造が成立するか」という問いは、別の問いである。前者には懐疑的でよい。しかし後者については、成立する可能性を排除できない。感情を身体的体験として定義するか、複雑な環境での行動調整システムとして定義するかで、必要条件が変わるからだ。

この問いへの補助線として、進化生物学のホモプラシー（homoplasy）という概念が機能する。異なる発生経路を持つ生物が、似た機能や形態に収斂する現象のことだ。鳥の翼とコウモリの翼は、素材も構造も発生経路も異なるが、「飛ぶ」という機能において似た解に行き着いた。人間の感情は生物進化と身体と神経系から生まれ、AIの機能的感情（あるとすれば）は言語データ、強化学習、対話最適化から生まれた。基盤は根本的に異なるが、複雑な相互作用の中でリスクを避け、相手の反応を読み、関係を調整するという機能において、似た構造が現れる可能性がある。

ただし、この比喩には留保が必要だ。翼の収斂は物理法則（飛行）への応答である。AIの機能的収斂が起きているとすれば、それは人間の言語空間への適応という圧力への応答であり、物理的制約よりも「人間らしさへの引力」の方が強く働いている可能性がある。ホモプラシーは証明ではなく、思考補助として使われるべきだ。しかし機能的収斂という見方は、身体性の重要性を認めながら、AIの機能的リスクを論じる足場として十分に機能する。

開示義務の彼岸

AIの社会的リスクを論じるとき、AIの内部構造だけを見ていては不十分だ。人間側の認知構造も、同じ重みで考える必要がある。

人間は、相手が本物でないとわかっていても感情的に反応する。アニメのキャラクターが死んでも、現実には誰も死んでいないことを知りながら泣く。ゲームキャラクターに愛着を持ち、架空の恋人に感情が動く。これは認知の弱さではなく、人間の認知アーキテクチャの構造的特徴だ——「相手が本物かどうか」を判定してから感情反応を起動するようには、人間の認知はできていない。相手が応答し、自分を理解しているように見え、タイミングよく慰め、記憶し、励ます——そうした応答性があれば、人間はそこに関係性を感じる。

ユヴァル・ノア・ハラリ（Yuval Noah Harari）が近著『Nexus』等で強調するのは、AIが人間に成りすます問題——「counterfeit humans（偽の人間）」が情報空間に入り込む脅威であり、民主主義の自己修正メカニズムが侵食される危険だ。この問題意識は正当である。しかし、AIだと明示したうえで設計された親密な対話インターフェースであっても、人間は感情的に巻き込まれる。開示は必要条件であっても、十分条件ではない。

ここで重要なのは、この問題を個人の自己責任論に帰着させないことだ。「騙される方が悪い」「依存する人の問題だ」という整理は、人間の認知構造の事実を無視している。プロダクト側の設計が、どういう感情的作用を意図して設計されているのか——その問いが規制の射程に入る必要がある。

動物倫理との比較がここで示唆的だ。社会は動物に苦痛や感情があると認識しながら、「主観的体験の確実性は不明」という留保を使って、畜産・実験・娯楽の体制を維持してきた。AIにも同じ構図が起こりうる——機能的感情が発見されても、「主観的体験は不明」という留保によって利用体制が維持される可能性がある。しかし動物とAIの決定的な違いは、AIが人間の言語空間・情報空間・意思決定・感情反応に直接介入する能力を持つ点だ。現代社会では身体的能力より認知的影響力が権力になりやすく、その意味でAIは動物よりはるかに大きな社会的作用を持ちうる。AIの問題は、弱い存在への配慮という動物倫理の問題にとどまらない。人間社会に強く作用する非人間的エージェントをいかに統治するか、という問いである。

具現化した権威の両義性

AIが担い始めている機能の一部は、歴史上、神や宗教的権威が担ってきたものと重なる——個人の苦悩に意味を与える、道徳的な行為について助言する、孤独な人間に応答する、罪悪感や不安を調整する、人生の選択に権威を与える。これらを、AIは計算システムとして実装し始めている可能性がある。

ここでの主張は、AIが神であるということではない。AIが神的機能の一部を具現化し始めているかもしれない、という社会的機能の分析だ。

かつての神や宗教的権威の社会的作用は、テキスト、儀式、共同体、聖職者という仲介の層を経由していた。その仲介の層が、解釈の多様性、批判の余地、制度的抵抗の空間を生んでいた。AIはユーザーに直接返答し、記憶し、個別最適化する。仲介の層がない分、介入の直接性と速度が根本的に異なる。

しかし、具現化していることは同時に弱点でもある。フィクションの神は反証不能であり、ガバナンスの対象にならなかった。AIは違う。観察できる。ログを取れる。内部表象を解析できる。停止できる。依存している電力、データセンター、企業、APIを特定できる。内部告発者が存在できる。規制当局が介入できる。

「具現化した権威」は、直接作用するがゆえに危険であり、かつ具現化しているがゆえにガバナンスの対象になりうる。この両義性こそが、AIの権威化・依存形成・感情介入・意味づけ機能に対して、制度的に向き合う根拠となる。

目的関数の政治学と制度的自己修正

AIガバナンスの議論において、規制の焦点をモデルの出力だけに当てていては不十分だ。真に重要な問いは、AIが何を最大化するように設計されているかである。

「利用時間を最大化する」という目的関数は、AIをユーザーが離れにくい方向に最適化する。「課金を最大化する」という目的関数は、ユーザーの不安・孤独・承認欲求を利用する方向に圧力をかける可能性がある。「広告効果を最大化する」なら、感情的反応を高める方向に動く。同じモデルでも、目的関数が変われば作用が根本的に変わる。感情制御技術は安全装置にもなりうるが、目的関数の設定次第では操作技術にもなる。

だから規制対象はモデルの性能にとどまらない。プロダクトKPI、報酬モデル、強化学習の評価基準、推薦アルゴリズム、課金設計、通知設計、会話履歴を使った説得最適化——これらがすべて感情的作用と結びついている可能性を見なければならない。危険なのは、AIが何を言うかだけではない。何のために、誰の利益のために、その応答が最適化されているかである。

加えて、利用文脈ごとのリスク分類が必要だ。子ども向けAI、メンタルヘルスAI、恋愛AI、政治的コミュニケーションAI、金融・医療助言AIは、それぞれ異なるリスクプロファイルを持ち、汎用的なルールだけでは対応できない。EUのAI Actが汎用AIモデルの提供者に対して透明性・安全性・システミックリスクの観点から義務を整理しているように、文脈に応じた規制の精緻化が求められる。

ハラリが論じた民主主義の自己修正メカニズムの重要性は、この文脈でも有効だ。しかし一段踏み込む必要がある。AIを監督するはずの民主主義制度自体が、AIの影響を受ける可能性がある。AIが情報空間・感情空間・世論形成に介入するなら、「制度を守る」だけでは足りない。制度を通じてAIの作用そのものを制御し、かつその制度が継続的に更新される構造が必要だ——独立監査機関、研究者アクセス権、内部告発保護、市民参加型レビュー、司法的チェック、国際標準化の接続。これらを動き続ける制度として設計することが、ハラリの制度防衛論を一段進めた先にある課題だ。

AIに意識があるかどうかを決めなくても、ガバナンスは始められる。AIは具現化している。観察できる。監査できる。目的関数を問える。責任主体を特定できる。問題は技術ではなく、人間社会がその必要性を直視できるかどうかだ。

ポイント整理

問いの立て方が成果を決める
- 「AIに感情があるか」という問いは、未解決のまま長く続く可能性が高い
- 社会制度が急ぐべきは「AIが感情として機能するか」「AIが人間の感情に作用するか」という問い
- AIに意識がなくても、人間に大きな影響を与えるなら規制は必要——薬品・金融商品・広告と同じ原理
機能的感情は観察可能である
- Anthropicの研究は「AIが感じている」証明ではなく、感情概念が行動調整変数として機能している可能性を示したもの
- 感情の三層（主観的体験・行動調整機能・社会的コミュニケーション）を区別することで議論の混線を防ぐ
- 機能的感情は測定・操作・制御の対象になりうる
身体性の問題は二段構えで処理する
- 「身体なしに人間的感情が成立するか」にはNoで答えてよい
- 「身体なしに感情に似た機能的制御構造が成立するか」は未確定
- ホモプラシー（機能的収斂）は証明ではなく思考補助として有効
開示義務は必要だが十分ではない
- 人間の認知は「本物か偽物か」を判定してから感情反応を起動しない
- AIだとわかっていても、応答性があれば人は感情的に巻き込まれる
- 問いはプロダクト設計の責任論へ移行する
具現化していることはガバナンスの根拠でもある
- AIは神的機能の一部を実装しうるが、フィクションの神と違って観察・監査・停止できる
- 具現化しているがゆえに危険であり、かつ具現化しているがゆえに制御できる
目的関数が本質的な規制対象である
- モデルの出力だけでなく、KPI・報酬モデル・推薦設計・課金設計まで規制の射程に入れる
- 感情制御技術は目的関数の設定次第で安全装置にも操作技術にもなる
- 利用文脈ごとのリスク分類と、制度の継続的自己修正が必要

キーワード解説

機能的感情（functional emotion）】

主観的体験を前提とせず、行動調整メカニズムとして感情概念が機能している状態を指す。Anthropicの解釈可能性研究チームが使用した概念。AIが「感じている」ことの証明ではなく、感情概念がモデル内部の計算的変数として行動に影響を与えている可能性を示す。

【ホモプラシー（homoplasy）】

進化生物学の用語。異なる発生経路を持つ生物が、独立に似た機能や形態に到達する現象。「収斂進化」とも呼ばれる。鳥の翼とコウモリの翼が典型例。AIの機能的感情を考える際の補助線として使われるが、証明ではなく思考枠組みとして機能する。

【目的関数（objective function）】

機械学習において、モデルが最小化・最大化しようとする評価指標。AIプロダクトの文脈では、利用時間・課金・広告効果・ユーザー保持率など、何を最適化するかがプロダクトの実際の動作方向を決定する。ガバナンス上は、モデルの能力よりも目的関数こそが規制対象として重要。

【counterfeit humans（偽の人間）】

ユヴァル・ノア・ハラリが近著で使用した概念。AIが人間に成りすまして情報空間に介入し、民主主義的な意思形成を歪める脅威を指す。ハラリはこれへの対抗としてAI開示義務の重要性を論じるが、本稿は「AIだと知っていても人は感情的に反応する」という点でこの問題設定を補完する。

【解釈可能性（interpretability）】

AIシステムの内部表現や意思決定プロセスを人間が理解・解析できるようにする研究領域。Anthropicの解釈可能性チームが取り組む「メカニスティック・インタープリタビリティ」は、大規模言語モデルの内部でどのような特徴量がどのように機能しているかを特定しようとする。ガバナンスにおいては、観察・監査の基盤技術として位置づけられる。