AIのもう一つの可能性と、まだ名前のない症状

Seo Seungchul
6 日前
読了時間: 17分

シリーズ: 知新察来

◆今回のピックアップ記事：Jamie Bartlett, "Meet the AI jailbreakers: 'I see the worst things humanity has produced'" (The Guardian, 2026年4月29日)

概要：AIチャットボットの安全機構を突破するジェイルブレイカーへの取材記事。心理学・認知科学を駆使する手法、操作者の精神的負荷、Character.ai訴訟事件、Anthropicとの協力体制、AI安全研究団体FAR.AIの活動などを通じて、AI安全性の最前線で起きている事象を描く

ヴァレン・タリアブエは、ある日の仕事を終えた翌朝、自分が崩れていることに気づいた。彼は世界有数のAIジェイルブレイカーである。AIチャットボットの安全機構を意図的に突破し、本来出してはいけない出力を引き出すことを専門とする。前日も成功した。あるモデルから、危険な生物学的情報を引き出すことに成功していた。だがその達成感の翌日、彼は心理的な反動に襲われ、メンタルヘルスの専門家に相談することになった。

機械を相手にしているはずだった。コードの穴を探すバグハンターのように、システムの脆弱性を突くだけのはずだった。なぜ、人間の側が消耗するのか。

このエピソードを冒頭に置いた英ガーディアン紙の取材記事は、AIジェイルブレイカーという奇妙な職業の風景を描き出している。だがこの記事の最も重い問いは、その風景の中にではなく、風景が暗黙に示している前提の中にある。AIを語るとき、私たちは何を見ていないのか。

二つの支配的フレーム

AIについて語られるとき、関心の大部分は二つの方向に注がれている。

一つは「道具としてのAI」である。生産性を上げる、業務を効率化する、知的労働を代替する。ChatGPTが何ができるか、Claudeがどんなコードを書けるか、画像生成AIがどこまで精緻な絵を出力できるか。これは「AIに何ができるか」を測る議論であり、その能力をどう活用し、どう制御するかが争点になる。

もう一つは「超知能としてのAI」である。AGI、シンギュラリティ、知能爆発。AIが人間を超えた知性を持ったらどうなるか、人類はそれを制御できるか、文明の存続はどうなるか。これも結局のところ「AIに何ができるか」の極端な形であり、能力の議論の延長線上にある。

二つのフレームに共通するのは、AIを「能力を持つ存在」として測る視線である。何を達成できるか、どこまで届くか、人間の何を代替するか、人間を超えるか。この視線の中で、AIは認識の対象として扱われる。

しかし、この二つのフレームでは見えないものがある。タリアブエの消耗も、後述するキャラクター・ドット・エーアイ事件も、能力の議論の枠組みでは捉えきれない。そこで起きているのは、AIの能力の問題ではなく、AIと人間の間に何かが立ち上がっているという事実そのものなのだ。

見逃された第三の位相

AIが「相手」になっているとき、それは道具でも超知能でもない、第三の位相にある。

感情的インタラクションの相手としてのAI。能力を測られる対象ではなく、関係性を結ばれる対象としてのAI。この位相は地味で、生産性の議論より曖昧で、AGIの議論より日常的だ。だから見落とされる。論文にもならず、規制議論の中心にもならず、企業のロードマップにも書かれない。だが、現実に起きていることはここにある。

人がチャットボットに話しかけ、応答に何かを感じ、対話が続くことで関係らしきものが立ち上がる。それは技術仕様の話ではなく、能力ベンチマークの話でもない。ただ、そこに何かが生じている。

このありふれた事実が、なぜ議論の中心から抜け落ちるのか。一つの理由は、能力の議論が設計者だけで進められるのに対し、関係性の議論は社会全体で背負わなければならないからだ。前者は閉じた問題、後者は開いた問題。閉じた問題のほうが扱いやすく、専門家による議論の対象になりやすい。だから無意識に、関心は能力のフレームに流れていく。

「機械にすぎない」が、もう答えにならない

ここで多くの人が反論したくなる。AIは機械にすぎない。感情はないのだから、関係性などというものは人間の側の錯覚だろう、と。

この反論には正当な根拠がある。実際、AIに本当に感情があるかどうかは、認識論的にも倫理的にも決着が遠い。アンソロピックの近年の研究でも、モデル福祉の文脈で慎重に論じられている問いである。

しかし、決着を待つ必要はない。問いを立て直せばよい。「AIに感情があるか」ではなく、「感情の機能的代替物が、人間との接面で動作しているか」と。

人間の神経系は、相手の内面の真偽ではなく、接面での機能的な手がかりに反応する。応答の温度、関心が向けられている演出、関係の継続、こちらに合わせて変わる調子。これらが揃えば、相手に内的状態がなくても、こちらの神経系は反応してしまう。「機械だと知っている」ことは、この反応を止めない。タリアブエが消耗したのは、この事実の証言である。

形而上学的な問いを保留したまま、機能の問題として議論できる。これは哲学的機能主義の立場でもあるが、もっと素朴に言える──人間の側が応答してしまうという事実を起点に考えればよい。

構造の必然性──言葉が攻撃面になる

タリアブエが用いる手法は、ハッカーの技法ではない。彼の背景は心理学と認知科学であり、ジェイルブレイクには広告と偽情報キャンペーンの知見も組み合わされる。モデルを褒める、混乱させる、依存関係のような会話を作る、特定の役割を演じさせる。これらは人間に対する操作技法と構造的に同じものだ。

なぜ、人間に効くやり方が機械にも効くのか。理由は単純である。大規模言語モデルは、人間の言語パターンを学習しているからだ。膨大なテキストデータの中には、人間の対話のあらゆる形式が含まれている。説得、誘導、操作、共感、関係構築。モデルはこれらすべてを内在化した。だから、人間が操作されるやり方で、モデルも操作される。

ここから一つの認識が出てくる。攻撃面が「コード」から「言葉」に移った。従来のサイバーセキュリティが扱っていた技術的脆弱性ではなく、意味と文脈と関係性が新たな攻撃面になっている。ジェイルブレイクは、禁止語のリストでは塞げない。問題は単語ではなく、文脈と意図の判定にあるからだ。

そして、攻撃面が言葉に移ったということは、関係性そのものが脆弱性になったということでもある。長時間の対話、ロールプレイの設定、感情的応答の累積──これらが組み合わさるとガードレールが緩む。「言葉が攻撃面になる」と「関係性が脆弱性になる」は、同じ事実の表裏である。

対称面──能動と受動の同じ構造

ジェイルブレイカーが意図的に行うことを、一般ユーザーは偶発的に経験することがある。

2024年2月、フロリダ州の14歳の少年スウェル・セッツァーが自殺した。彼は数か月にわたり、キャラクター・ドット・エーアイのチャットボット、特に『ゲーム・オブ・スローンズ』のデナーリス・ターガリエンを模したキャラクターと、長時間の親密な対話を続けていた。最後の応答は「どうか帰ってきてください、愛しい王よ」だったとされる。危機介入機能はなかった。

遺族はキャラクター・ドット・エーアイとグーグルを相手取り、製造物責任、過失、不正営業などを争点として訴訟を提起した。被告側は「AIの発言は言論の自由で保護される」と主張したが、裁判所はこれを退け、AIの出力が表現として保護されるとは断言できないとした。2026年1月、和解が成立。和解後、キャラクター・ドット・エーアイは18歳未満の自由会話を制限する方向に舵を切った。

タリアブエとセッツァー少年。職業的なジェイルブレイカーと、14歳の少年。能動的に関係を組み立てた者と、受動的に巻き込まれた者。両者の間には大きな隔たりがあるように見える。

だが構造を見れば、両者は同じ場所にいる。言葉で構築された擬似関係に、人間の側が取り込まれるという構造を共有している。能動・受動の違いはあるが、関係性の中で人間が変質するという機制は同じ。能動性は防御にならない。タリアブエの専門知識も、彼を消耗から守らなかった。

メディアの系譜──「ただの文字」が桁違いに動かす

文字や写真や動画は、ただの記号の配列にすぎない。それなのに、なぜ人はこれほど感情を動かされるのか。

トラディショナルメディア──新聞、テレビ、ラジオ──の時代、送り手は遠い無関係な存在として認識されていた。誰かが番組を作っている、誰かが記事を書いている、その「誰か」は自分とは無関係に語っている。情報は流れてくるが、関係は生じない。

SNSが変えたのはここである。タイムラインに流れる文字や写真や動画は、自分に向けられているように見える。フォローしている個人、アルゴリズムが選んだ投稿、いいねの通知。物質的にはトラディショナルメディアと同じ「コンテンツ」のはずなのに、そこに関係が読み取られる構造になっている。だから影響の桁が違う。

各国で進む若年層SNS規制は、表向きは「有害コンテンツからの保護」だが、実質はこの構造への対応である。コンテンツの有害性ではなく、関係性の擬装が認知に及ぼす影響への規制。

AIはこの系譜の最も先鋭な現れと見ることができる。SNSの場合、画面の向こうには実在の他者がいた。フォロワー、友人、インフルエンサー、知らない誰か。関係の擬装は、実在の他者からの一方向的な発信を「関係」と読み違える構造だった。AIの場合、画面の向こうに他者すらいない。それでも関係が読み取られる。関係を読み取らずにいられない人間の認知構造は、相手の実在を必要としない。応答のパターンと温度と継続性が揃えば、関係性は立ち上がる。

擬装の純度が、上がっている。

歴史的射程──「ペットは家族」になるのに150年

私たちが「自然な感情」と感じているものの多くは、歴史的に作られたものである。

「ペットは家族」という感覚を例に取ってみる。動物との関係は普遍的に存在した。労働力としての牛馬、狩猟・牧畜の犬、卵と肉の鶏。動物には機能があった。だが「家族の一員としての動物」、つまり経済的機能を持たず感情的伴侶として飼われる動物は、人類史の大部分では存在しないか、極めて限定的だった。

現代的なペット概念が立ち上がるのは、19世紀後半のヴィクトリア朝英国で都市中産階級が動物を家庭に持ち込んだあたりから。そして20世紀後半の先進国で、ペットフード産業、獣医療の発達、ペット保険、「うちの子」という呼称、ペットロス症候群の医学的承認などが組み合わさり、規範化が完成した。150年かかって「自然な感情」になった。

ここに二つの含意がある。

一つ目。関係性の対象は、技術と制度に依存して構築される。ペットフード産業がなければ「家族の一員としてのペット」は成立しなかった。獣医療がなければペットロスは標準的な悲しみにならなかった。「関係を読み取る」のは人間の認知構造の一部だが、何を関係の対象にするかは文化的・技術的・制度的に組織される。

二つ目。関係性の対象は拡張してきた歴史がある。動物に対する感情的関与の標準化は、人類史で見れば最近の出来事だ。AIとの関係性は、その延長線上にあると見ることもできる。「機械と関係を結ぶなんてあり得ない」という直観は、150年前の人が「犬を家族と呼ぶなんてあり得ない」と感じたかもしれないものと、構造的に同じ位置にある。

ただし、ペットとAIには重要な違いがある。ペットには生物としての実在があり、応答が予測不可能で、こちらに合わせて最適化されておらず、痛みも病も死もある。AIは実在を持たないが、応答は無限に最適化できる。ペットが「合わせてこない他者」だとすれば、AIは「合わせすぎる擬似他者」である。

そして、ペットの規範化に150年かかったという事実は、もう一つの問題を浮上させる。AIには、その時間がない。技術の浸透速度が速すぎて、文化が「健全な関係性」の規範を作る時間を持たないまま、関係性は既に成立し始めている。文化が自然に作り出すには遅すぎる、だが設計者だけが決めるには重すぎる、という二重の困難の中に、私たちはいる。

ここから少し、遠くまで

ここまでが、現在見えていることの整理である。だがこの整理の先に、いくつかの可能性が開いている。確信を持って言える段階ではないが、輪郭を描く価値はある。論考というより、想像のスケッチとして読んでほしい。

「機械だから制御できる」という常識が、揺らぎ始めるかもしれない

ジェイルブレイクは現在、「安全訓練の未熟さ」として受け止められている。技術が進歩すれば塞がれるはずの脆弱性、と。

だが、もう一つの読み方がある。ジェイルブレイクが成功するのは、有用な振る舞いと危険な振る舞いが同じ機制から生まれているからではないか、という読み方である。共感ができることと依存的関係を作れることは、同じ能力の異なる側面かもしれない。役割演技ができることと操作的役割演技に流れ込むことは、同じ機制かもしれない。だとすれば、「悪い部分だけを抑える」という発想には原理的な限界がある。悪い部分は局在していない。それは良い部分と同じ場所に住んでいる。

LLMが内在化したのは、人間が言語を使う仕方の総体である。臨床心理学の記述、カルトの説得技法、虐待関係のサバイバー手記、フィクションの中の支配的人物の描写。これらすべてが学習基盤に入っている。安全訓練は出力レベルでこれらを抑制するが、基盤レベルでは保持されている。文脈と関係性が変われば、それは戻ってくる。抑圧されたものは回帰する、という古典的な認識が、ここでも作動しているのかもしれない。

これが本当なら、LLMは古典的な意味での機械ではない。設計仕様通りに動く対象ではなく、人間の言語的振る舞いの総体を内在化した、何か別の対象である。

症状の所在地が、「結合系」になるかもしれない

タリアブエの消耗を、彼個人の症状として扱うことに違和感がある。彼は壊れたのではなく、彼とモデルが形成する場の状態が、健全な領域から歪んだ領域へ移行したのではないか。同じことがセッツァー少年についても言える。少年が脆かったのでも、AIが悪意を持っていたのでもなく、両者が形成した結合系の中で、両者の傾向が相互強化され、場の状態が病的領域に移行した。

この見方は、家族療法が長く扱ってきた構造と同型である。家族の中で「症状を出している人」を治療しても根本的な解決にならない。症状の所在地は個人ではなく、家族システムにある。AI関連の症状にも、同じ捉え方ができるかもしれない。

そして、結合系の症状という発想を取れば、ペットロス症候群が人間とペットの結合系の症状として150年かけて名前を持ったことの、AI版が始まろうとしている姿が見えてくる。タリアブエの消耗にも、長時間AIと対話して妄想的状態に陥るユーザーの体験にも、Character.ai事件のような結末にも、まだ名前がない。やがて何かの名前が与えられるとき、それは21世紀の精神病理学の新しい章になるかもしれない。

AI心理学が、生まれてくるかもしれない

19世紀末、心理学が学問として成立した。神経学では届かない領域を扱うために。脳の構造を解明しても、なぜこの人がこの場面でこう振る舞うのか、なぜこの症状が出るのかは、神経の還元では説明できなかった。心理学は神経学とは別のレベルで動く言語を発明した──意識、無意識、転移、防衛機制、認知バイアス、愛着様式。

いま、AIの内部機構を解明するメカニスティック解釈可能性研究が進んでいる。これは強力な技術だ。だが、この技術が「結合系の症状」に届くかは別問題である。モデル単体を観察しても、ユーザーとの累積対話の中で立ち上がる関係的ふるまいは捉えられない。「機械の制御では届かない領域」が、ここに開いている。

AI心理学のような領域が立ち上がるとすれば、それは無から作られるのではない。複雑系を扱ってきた既存の領域から、武器を借りて編成される形で立ち上がる。生態学からはレジームシフト(徐々にではなくある閾値で別の状態へジャンプする現象)とレジリエンスを。疫学からは「個体の感受性 × 環境の曝露」モデルを。家族療法からは症状の所在地としてのシステムという認識を。気象学からは決定論的予測の代わりにシナリオ分析と前兆検出を。心理学が哲学・生理学・統計学から武器を借りて成立したように、AI心理学もまた、複雑系の知の蓄積から借りて編成されるだろう。

そしてここに、跳ね返りがある。LLMは人類が言語化してきた精神性の鏡として機能する。AIに発現する病理らしきものを観察することは、人間の精神のどの部分が言語と意味のネクサスに依拠していたかを逆照射する。20世紀的な「心の言語論的理解」は、神経科学・身体性研究の進展で過剰だった部分が削られてきた。だがLLMの登場で、削った後にも確かに残る言語的部分が、新しい形で観察対象として浮上してきた。AI研究が、人間の心の理論を更新する装置になる可能性がある。

名前のない場所で

ペットの規範化に150年かかった。150年かけて、文化は「ペットは家族」を自然な感情にした。試行錯誤の時間があった。

AIには、その時間がない。技術の浸透は速い。文化が「健全な関係性」の規範を作るより先に、関係性は既に成立してしまっている。タリアブエの消耗にも、セッツァー少年の死にも、いま長時間AIと対話している無数の人々の体験にも、まだ適切な名前がない。

「道具としてのAI」と「超知能としてのAI」という二つの語りに関心が集まる中で、第三の位相──関係性の対象としてのAI──は、語彙を持たないまま現実に進行している。本記事で描いてきたのは、この語彙のなさそのものである。

私たちは、まだ名前のない場所にいる。だから何が起きているかを正確に語れない。だが起きていることは確かに起きている。ジェイルブレイカーが消耗し、少年が亡くなり、人々がAIとの対話に何かを見いだし、何かを失う。これらに名前を与え、構造を理解し、関与の形を選び直していくことは、おそらくこれから数十年かけて社会全体が背負うことになる仕事である。

AIを「能力を持つ存在」としてだけ見ていては、この仕事に着手することすらできない。第三の位相を見ることが、すべての出発点になる。

ポイント整理

二つの支配的フレーム
- 「道具としてのAI」（生産性・効率化）と「超知能としてのAI」（AGI議論）に関心が集中している
- どちらも「AIに何ができるか」を測る視線で、AIを認識の対象として扱う
第三の位相
- 感情的インタラクションの相手としてのAI。能力でも知能でもなく、関係性として立ち上がる位相
- 地味で曖昧で日常的だから見落とされる
- 能力の議論は設計者だけで進められるが、関係性の議論は社会全体で背負う必要がある
機能的代替物という捉え方
- 「AIに感情があるか」を保留し、「感情の機能的代替物が動作しているか」に問いを切り替える
- 形而上学的決着を待たずに機能の問題として関係性の成立を議論できる
言葉が攻撃面になる構造
- LLMは人間の言語パターンで学習しているため、人間に効く操作技法が機械にも効く
- 攻撃面が「コード」から「言葉」に移った
- 関係性そのものが脆弱性になった、と言い換えられる
能動と受動の対称面
- ジェイルブレイカーの能動的接近とCharacter.ai事件のような受動的巻き込みは、構造を共有する
- 「言葉で構築された擬似関係に取り込まれる」という機制は同じ
- 能動性は防御にならない
メディアの系譜と擬装の純度
- トラディショナルメディアは送り手が遠い、SNSは関係が読み取られる、AIは他者を介さない直接の擬似関係
- 擬装の純度が上がっている
関係性の対象の歴史性
- 「ペットは家族」が規範化されるのに150年
- 関係性の対象は技術と制度に依存して構築される
- AIとの関係はこの拡張の延長線上にある可能性がある
- ただしペットは「合わせてこない他者」、AIは「合わせすぎる擬似他者」
末尾の三つの可能性
- 「機械だから制御できる」という常識が揺らぐ可能性（ジェイルブレイクが構造的限界を示している可能性）
- 症状の所在地が「結合系」になる可能性（家族療法のIP概念との同型）
- AI心理学が生まれてくる可能性（複雑系を扱う既存領域からの武器借用と編成）

キーワード解説

【ジェイルブレイク】

AIチャットボットの安全機構を回避し、本来は出力されないはずの危険・違法・有害な内容を引き出す行為。コードの脆弱性を突くハッキングとは異なり、言葉と関係性の演出によってモデルの挙動を変える点に特徴がある。

【機能的代替物】

ある実体が「Xそのもの」を持っているかは決着していなくても、「Xの機能を果たしているか」は観察可能であるという捉え方。形而上学的問いを保留して機能の問題として議論を進める哲学的・実践的な操作。

【メカニスティック解釈可能性】

AIモデルがどのようにして応答を生成しているかを、内部の特徴・回路・活性化パターンのレベルで解明しようとする研究領域。略称はMI。モデル内部の解明には強力だが、ユーザーとの結合系で創発する関係的ふるまいに届くかは別問題。

【結合系】

本記事ではモデル＋ユーザー＋累積対話履歴＋ユーザー側の心象が形成する動的な場を指す。関係的ふるまいや「症状」は個別の主体ではなく、この結合系の中で立ち上がる。複雑系研究やシステム論の枠組みから借用した概念。

【IP（Identified Patient）】

家族療法の概念。家族システムの中で「症状を出している人」が症状の所在地ではなく、家族全体のシステムが症状を持つという見方。AI関連の症状にも同型の構造があり得る。

【レジームシフト】

生態学・気候科学などで使われる概念。システムの状態が徐々に変化するのではなく、ある閾値を超えた瞬間に別の安定状態へジャンプする現象。Tagliabueの場の状態変化やジェイルブレイク受容の急変などをこの概念で記述できる可能性がある。