AIは「影」しか見ていなかった――言語の限界と、映像が拓く新しい知性のかたち

Seo Seungchul
4月11日
読了時間: 15分

シリーズ: 論文渉猟

◆今回の論文：Shengbang Tong et al., "Beyond Language Modeling: An Exploration of Multimodal Pretraining" (arXiv, 2026年3月3日）

概要：言語モデルのみに依存する基盤モデルの限界を指摘し、映像・画像・動画を統合した多モーダル事前学習の設計空間を体系的に検証した論文。視覚と言語データは互いに補完し合い、かつ単一の表現エンコーダーで視覚の理解と生成の両方をこなせることを示した。また、大規模な映像データから一般的な学習を行うだけで「世界モデル」的な能力が自然に創発することも報告。

言語だけで世界を学んできたAIは、本当に「世界を知っている」と言えるのでしょうか。

2000年以上前、プラトンは洞窟の壁に映る影しか見たことのない囚人たちのことを書きました。大規模な言語モデルの登場からしばらく経った今、あの比喩がこれほどリアルに響いてくるとは思いもしませんでした。テキストは現実の「lossy compression（非可逆圧縮）」にすぎない——そう書いたのは、MetaとNYUの研究者たちが2026年3月に発表した論文です。彼らは、映像・画像・動画を言語と同時に学習させる「多モーダル事前学習」の設計空間を、一から体系的に検証しました。

富良野とPhronaが今回深掘りするのは、その技術的な発見ではなく、その奥に潜む問いです。「見ること」と「知ること」はどう違うのか。そして、映像を学んだAIは、世界をどこまで「理解」できるのでしょうか。

洞窟の囚人たちはテキストで世界を知っていた

富良野：この論文のイントロが面白い。冒頭から「プラトンの洞窟」の比喩を持ち出してくるんですよね。

Phrona：洞窟の中で壁の影だけを見て育った囚人たちの話でしたっけ。外の世界をまったく知らずに、その影が「現実」だと思い込んでいる。

富良野：そう。で、その論文はそれをAIに重ねてくる。今の言語モデルは、「影を描写することを学んだ」だけで、影を作っている実体を見たことがない、と。

Phrona：テキストって、現実をいったん人間が言語に変換したものじゃないですか。その変換には必ず何かが失われる。幾何学的な関係、物理的な感触、時間の流れ。

富良野：そうなんですよ。著者たちは「lossy compression（非可逆圧縮）」って書いてる。写真をJPEGで保存したとき、原画には戻れないように、テキストになった時点で何かが落ちてる。

Phrona：それで言うと、テキストデータの量自体も限界に近づいてるって書いてあった気がするんですよね。

富良野：そこがもう一個の問題で、良質なテキストはもう枯渇に近いって言う人もいる。一方、映像は「洞窟の外」で無尽蔵に生まれ続けてる、と。

Phrona：映像って、人間が言語化してないものも含まれますしね。誰も言葉にしなかった光の反射とか、歩く時の重心の移動とか。

富良野：そういうものを直接学習できるかもしれない、というのがこの研究の出発点なんですよね。

視覚と言語は「競合」するか、「補い合う」か

Phrona：でも、視覚と言語を一緒に学ばせたら、片方の性能が落ちそうって思いませんか。人間の脳でも、視覚野と言語野はかなり分かれてますし。

富良野：まさにそれが、この研究の中心的な問いなんです。「モダリティ競合（modality competition）」って呼んでて、一緒に学ばせると互いに邪魔をし合うんじゃないかっていう懸念。

Phrona：で、実際どうだったんですか。

富良野：意外な結論で、「競合は設計の問題であって、視覚そのものが問題なわけじゃない」ということになってる。純粋な映像データは、むしろ言語の学習を邪魔しないどころか、ちょっとだけ助けるくらいだった、と。

Phrona：それは直感に反しますね。邪魔になると思っていたのに。

富良野：問題の根っこは別にあって、画像とテキストのペアデータを使うと、テキストのデータ分布が変わってしまう。通常の文章と画像キャプションって、文体も語彙もかなり違うから。

Phrona：ああ、なるほど。「夕焼けが空を染めている」みたいな文章と、「夕暮れの都市風景、遠景に山が見える」みたいな説明文では、確かに全然違う。

富良野：そのズレが言語の汎化性能をほんの少し落とす。だけど視覚情報自体が言語の足を引っ張っているわけじゃない、という。

Phrona：つまり、うまく設計すれば共存できる、というより、うまく設計したら相乗効果があるってことですね。

富良野：そう。多様なデータを混ぜて学習させたモデルは、特定タスク専用のデータだけで学習させたモデルより、視覚的な質問応答の精度が上がったんです。5倍少ないドメイン特化データでも、100Bトークン専用学習を上回る、という結果が出てる。

Phrona：それは相当に驚くべき数字ですね。

「見る」ことと「理解する」ことのあいだ

Phrona：そもそも、「視覚データを学習する」ことで、AIは何を得ているんでしょう。テキストで「りんごは赤い」と学ぶのと、実際に赤いりんごを見て学ぶのは、何が違うんですか。

富良野：うーん、それは結構根深い問いで。物理的な因果性とか、空間的な関係とか、時間的な変化の仕方とか——テキストだと間接的に学ぶしかないものが、映像なら直接学べる、という話だと思うんですよね。

Phrona：物が転がるとき、なぜその軌跡を描くか。水が流れるとき、なぜそう流れるか。そういうことは、言葉で説明しても何かが足りない感じがする。

富良野：論文の中に「高忠実度の物理・幾何・因果性（high-fidelity physics, geometry, causality）」という表現があって、それが言語では捉えきれないと書いてある。映像はそれを直接記録している、と。

Phrona：ただ、どうなんでしょう、「記録している」と「理解している」は別の話じゃないですか。カメラだって映像を記録するけど、因果を「理解」はしていない。

富良野：そこが本当に難しくて。この論文のモデルは、映像から次のフレームを予測することを学ぶんです。「この状態からどういう状態に移るか」を予測できるということは、何らかの意味で物理的な規則性を内在化してるとも言える。

Phrona：「次のフレームを正確に予測できる」ことと「なぜそうなるかを分かっている」こととは、やっぱり別では？

富良野：それは正直、わからない。でも「分かる」というのが何を意味するのかも、あんまり明確じゃないとも思っていて。人間だって、なぜ物が落ちるかを「重力の法則」という概念で説明するけど、重力の実体を直接感じてるわけじゃないじゃないですか。

Phrona：それはそうなんですよね。何かの因果を「理解した」と言えるラインが、どこにあるのか。

世界モデルは「学んだ」のか、「創発した」のか

富良野：で、一番面白かったのが「世界モデル」の話なんです。世界モデルというのは、簡単に言うと「状況と行動を入力したら、次の状態を予測できるモデル」のこと。

Phrona：ロボットが「右に曲がったらどうなるか」を頭の中でシミュレーションできる、みたいな。

富良野：そうです。で、論文はこのモデルに「前に進め」とか「右に曲がれ」というナビゲーション指示を与えて、次の映像を予測させるタスクをやってる。

Phrona：それ、ナビゲーション専用に訓練したんですか？

富良野：そこがすごくて。ナビゲーション専用データは全体のわずか1%でも、一般的な映像や言語データで広く学習したモデルのほうが、専用データだけをたくさん学習したモデルより性能が高かった。

Phrona：1%で十分なんだ。

富良野：「創発（emergence）」って書いてあって。意図して学ばせたわけじゃなくて、広く学ぶことで自然にそういう能力が生まれた、という。さらに面白いのは、「左に曲がれ」じゃなくて「影から出ろ！」みたいな自由な自然言語指示でも動いたという。

Phrona：あ、それはかなり飛躍してますね。数値的な移動量じゃなくて、意味的な命令で動く。

富良野：「影から出ろ」という言葉が、映像の中の明暗の違いと結びついて理解されてるってことだから、言語と視覚の概念が本当に統合されてる、とも言える。

Phrona：ただ、これは「本当に分かって動いてる」のか、「訓練データのパターンに乗ってるだけ」なのか、やっぱり問いが残る気がするんですよね。

富良野：残りますね。でも、それって何かを「本当に分かってる」と言うためには何が必要なのか、という問いでもあって。その答えが出るまで、評価を保留し続けるしかないのかもしれない。

「分業」か「統合」か——専門家か、万能選手か

Phrona：もう一個気になってたのが、「視覚の理解」と「視覚の生成」を一つのエンコーダーで処理できた、という話。それって、なんか意外じゃないですか。

富良野：そうなんですよ。従来の常識では、「見て理解する」処理と「描く」処理には別々の表現形式が必要だと思われてた。理解はセマンティックな特徴、生成は細かいピクセル情報が重要で、それらは違う仕組みだから。

Phrona：人間に喩えると、「読む力」と「書く力」は別の才能みたいな感じ？

富良野：むしろ「見て内容を把握する力」と「頭の中でイメージを描く力」、かな。それに別々の脳回路が要ると思われてたんだけど、実は同じ専門家（エキスパート）の集まりが両方を処理してた、というのが発見で。

Phrona：その「専門家の集まり」というのが、MoE（Mixture of Experts、専門家の混合）ってやつですね。

富良野：そう。モデルの中に複数の「専門家」ユニットを用意して、各トークンがどの専門家を使うか動的に学習するアーキテクチャ。で、驚くべきことに、画像を「読む」ときも「描く」ときも、ほぼ同じ専門家が活性化してた、という。

Phrona：それって、理解と生成が本当に同じ内部表現を使ってるってことですよね。それはちょっと怖いというか、興味深いというか。

富良野：面白いのは、専門家の種類を人間が手動で設計したんじゃなくて、データから自然に学習されたということで。「言語専門家」「視覚専門家」「マルチモーダル専門家」みたいな分業が、勝手に生まれた。

Phrona：設計しなくても、学べば分業が生まれる。人間の組織みたいですね。

「世界モデル」は誰の世界を映しているのか

富良野：あと、スケーリングの話も面白かったんですよ。視覚はデータをもっと大量に必要とする。言語の5倍以上、とも書いてある。

Phrona：映像の情報密度が高いから？

富良野：それもあるし、視覚的なパターンの多様性が言語より圧倒的に広い。テキストはアルファベットとか漢字とかの組み合わせだけど、映像は無限に近い変化がある。だからまだ使われていない大量の映像データが、次世代モデルの燃料として眠ってる、という。

Phrona：ただそこで引っかかることがあって。「世界モデル」って言うけど、それって結局「人間の身体と知覚が感知して意味づけできる範囲での世界」のモデルですよね。

富良野：おっしゃる通りで。論文のナビゲーション実験を見ると、人間目線のカメラ映像と人間が使う言語指示でできてる。その外側——たとえば紫外線の分布とか、超音波の空間認識とか——はデータとして存在しないから、原理的に学べない。

Phrona：映像データ自体がすでに人間のフィルターを通過しているんですよね。カメラは人間の可視光線の範囲で設計されていて、フレームレートも人間の動体視力に合わせてある。

富良野：だから「映像から物理を学ぶ」と言っても、それは「人間の感覚器官と認知が切り取った物理」を学ぶことになる。

Phrona：カントの「物自体（Ding an sich）」に似てますね。人間はあらゆる認識を自分の認知フレームを通してしか行えないから、「世界そのもの」には触れられない。AIが人間の作ったデータで学ぶ限り、その制約を引き継ぐ。

富良野：でもそれって必ずしも悪い話じゃない気もしていて。「真の世界モデル」なんてものはデータ量が無限大になっても成立しないとしても、「人間にとっての世界の理解」を深めるという意味では、まだ十分に意義がある。

Phrona：むしろ「その制約の中で何ができるか」の方が、実践的には重要な問いですよね。

環世界のバリエーションとして——コウモリの世界、ニューロダイバーシティの世界

Phrona：ちょっと飛躍していいですか。「世界モデル」がどうせ人間の環世界のモデルにすぎないとすると、逆に「人間とは違う環世界を持つ存在の世界モデル」を作れたら面白くないですか。

富良野：環世界、というのはユクスキュルの概念ですね。各生物が自分の知覚・行動能力に応じて固有の「世界の切り取り方」を持っている、という。

Phrona：コウモリは超音波の反射パターンで空間を構成している。イルカは水圧・音波・弱電場を統合した知覚を持っている。そういう「別の感じ方」を内側からシミュレートするモデルが、将来的には可能になるかもしれない。

富良野：実はそれ、神経科学では部分的にすでに研究されていて。動物の脳活動データから「その動物の知覚空間」を逆算しようとしている。それと世界モデルを組み合わせれば、「コウモリとして世界を知覚するシミュレーター」は理論的には射程に入ってくる。

Phrona：で、だとすれば当然ニューロダイバーシティ的なワールドモデルのバリエーションを作るのだって、もっと現実的ですよね。自閉スペクトラムの人が感知する感覚過敏の世界、ADHDの人の時間知覚のあり方、失読症の人の文字の見え方。それぞれが「人間の中の別々の環世界」として記述できる。

富良野：それが「体験可能な形で」再現できたら、というのが面白い。今ってニューロダイバーシティをめぐる議論の多くが、言語化のレベルで止まっていて。「配慮が必要」とは言われても、感覚的な実態がなかなか共有されない。

Phrona：そのギャップを埋める可能性がある。VRや触覚デバイスと組み合わせれば、「こういう感じ方をしている」が言葉じゃなく体験として伝わるかもしれない。

富良野：ただ慎重になりたいところもあって。「モデル化する」こと自体が「外側からの記述」で、当事者の環世界の本物らしさを保証しない。下手をすると「こういう感じでしょ」という誤った代表性を固定化するリスクもある。

Phrona：だから設計プロセスに当事者がどう関わるか、というのが倫理的にも精度的にも核心になりますね。外から想像して作るのか、内側から記述して作るのかは、全然違う。

富良野：そうですよね。でもそれを踏まえてもなお——「他者の知覚を想像する解像度を上げる」ツールとしての可能性は、社会の豊かさに直結すると思う。共感の問題って突き詰めると、他者の環世界にどれだけ近づけるか、という問いでもあるから。

Phrona：論文の話をしていたのに、気づいたら「他者をどう想像するか」という話になっていた。でも、それはAIが映像を学ぶことで何を得るか、という最初の問いと、根っこが繋がっている気がします。

ポイント整理

言語の限界を哲学的・実用的に提示
- テキストは現実の「非可逆圧縮」であり、物理・幾何・因果といった高忠実度の情報が失われる。加えて、高品質なテキストデータは枯渇に近づいており、スケールアップの壁として現実化しつつある。
多モーダル事前学習の設計空間を体系化
- 初期化なしのゼロからの学習（from-scratch pretraining）により、視覚表現の種類・データ構成・アーキテクチャ・スケーリング特性といった各変数を独立して検証した。既存の事前学習済みモデルから始める研究と異なり、多モーダル学習そのものの効果を切り離して測定できている点が方法論的に重要。
視覚と言語の「競合神話」を覆す
- 純粋な映像データは言語の学習性能を実質的に低下させないどころか、わずかに向上させる可能性がある。競合が起きる場合の原因はデータ分布のズレ（画像キャプションと通常テキストの語彙・文体差）であって、視覚そのものではない。
単一エンコーダーで理解と生成を統一
- 視覚の「理解」と「生成」には別の表現形式（意味的エンコーダーとVAE）が必要という定説を覆し、意味的エンコーダー一本（SigLIP 2ベースのRAE）でどちらも高品質にこなせることを示した。理解と生成で同じ「専門家（エキスパート）」ユニットが活性化されることも確認された。
世界モデルは「教えなくても生まれる」
- ナビゲーション専用データをほとんど（1%程度）使わなくても、一般的な映像・言語データで幅広く学習したモデルが世界モデル的な能力（行動に応じた次状態予測）を示した。これは能力が「付与される」のではなく、学習から「創発する」ことを示唆する。
MoEは多モーダル学習の有力な設計選択
- スパースな専門家混合（MoE）アーキテクチャが、言語と視覚の異なるスケーリング特性を「橋渡し」する構造的な柔軟性を持つことが示された。人間が分業を設計しなくても、データから自然に専門化が生まれた。
視覚はデータがより「お腹を空かせている」
- スケーリング則（scaling law）の分析により、視覚モダリティは言語より大幅にデータを必要とすることが判明。現在未活用の膨大な映像データが、次世代モデルの主要な資源として位置づけられる。
「世界モデル」は常に誰かの環世界のモデルである
- 映像データはカメラ（人間の可視光線帯）と人間の言語指示で構成されており、原理的に「人間の知覚フィルターを通過した世界」のモデルにしかなれない。「真の世界モデル」はデータ量が無限大になっても成立しないが、それ自体は欠陥ではなく、「人間にとっての世界の理解」を深める問いとして十分に意義を持つ。
環世界の多様性をモデル化する可能性
- コウモリの超音波知覚やイルカの電場知覚のように、「人間とは異なる環世界を持つ存在の世界モデル」を構築する試みは理論的には射程に入りつつある。さらにニューロダイバーシティ的な環世界——感覚過敏、異なる時間知覚、異なる文字の見え方——を再現するモデルは、「他者の知覚を想像する解像度を上げる」社会的ツールになりうる。ただしその設計プロセスに当事者がどう関わるかが、精度と倫理の両面で核心となる。

キーワード解説

【多モーダル事前学習（multimodal pretraining）】

テキストだけでなく、画像・動画・音声などの複数の情報形式（モダリティ）を同時に学習する基盤モデルの訓練手法。

【Transfusionフレームワーク】

テキストには次トークン予測、視覚には拡散モデルを使い、一つのモデルで両方を扱う多モーダル学習の枠組み。

【RAE（表現オートエンコーダー）】

視覚の「理解」と「生成」を単一の高次元意味表現で統一するエンコーダー。従来は理解用と生成用で別々の表現が必要とされていた。

【MoE（Mixture of Experts、専門家の混合）】

モデル内部に複数の「専門家」ユニットを置き、各入力トークンがどの専門家を使うかを動的に学習するアーキテクチャ。総パラメータ数と実際の計算量を切り離して効率よくスケールできる。

【世界モデル（world model）】

現在の状態と行動を入力として、次の状態を予測できる内部モデル。ロボット工学やゲームAIで発達した概念で、「頭の中でシミュレーションする能力」に対応する。

【スケーリング則（scaling law）】

計算量・モデル規模・データ量がどの比率で増えるとモデルの性能が最適化されるかを記述する経験的な法則。Chinchilla則が有名。

【IsoFLOP分析】

計算量（FLOP数）を固定しながら、モデルサイズとデータ量のトレードオフを系統的に調べる実験手法。各モダリティのスケーリング特性を比較するために使われた。

【創発（emergence）】

特定の能力を意図して教えなくても、幅広い一般的な学習の結果として自然に生まれること。世界モデルの能力がその例として示された。

【モダリティ競合（modality competition）】

複数の情報形式を一つのモデルで学習する際に、一方の学習が他方を妨げるとされていた現象。本研究では設計次第でこれが回避可能と示された。