top of page

AIの「心の目」を開く技術──視覚的思考を獲得する機械学習モデル

更新日:2 日前

シリーズ: 論文渉猟


◆今回の論文: Zeyuan Yang et al. "Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens" (arXiv, 2025年6月20日)

  • 概要:視覚言語モデル(VLM)に、画像を生成することなく内部的な視覚表現を使って推論させる新しいフレームワーク「Mirage」の提案



ジグソーパズルを想像してみてください。目の前に散らばったピースから、ぴったり合うものを見つける時、私たちは何をしているでしょうか。一つ一つのピースの形を言葉で説明しているでしょうか。それとも、頭の中でピースを回転させたり、重ね合わせたりして、視覚的にマッチするかを確かめているでしょうか。


多くの人は後者だと答えるはずです。人間の思考には、言葉だけでなく、頭の中に浮かぶイメージ、つまり「心的イメージ」が深く関わっています。では、AIはどうでしょうか。現在の画像認識AIは、見たものを理解し、それについて言葉で説明することはできます。しかし、人間のように頭の中でイメージを操作しながら考えることはできるのでしょうか。

最新の研究では、AIに「潜在的な視覚トークン」という形で内部的な視覚表現を持たせることで、より豊かな推論能力を獲得させる試みが進んでいます。今回は、富良野とPhronaの対話を通じて、この革新的なアプローチについて探っていきましょう。二人の異なる視点から、AIの新しい「思考法」の可能性と課題が見えてくるはずです。




人間らしい「曖昧な視覚」をAIに


富良野:この論文のAIに心的イメージを持たせるという発想、なかなか興味深いですよね。


Phrona:ジグソーパズルの例が分かりやすかったですね。人間って、パズルのピースを合わせる時に、頭の中で鮮明な写真を思い浮かべるわけじゃない。


富良野:そうなんです。なんというか、ぼんやりとした輪郭とか、形の「感じ」みたいなものを想像してる。


Phrona:私も鍵を探す時、棚の端っこの「形」は覚えてるけど、部屋全体の詳細な映像なんて思い浮かべてない。必要な部分だけを抜き出して、それで十分判断できてる。


富良野:論文では、これを「メンタルイメージ」と呼んでるんですが、人間は課題に関連する情報だけを含んだ簡略化されたスケッチのような視覚表象を構築して操作してるんですね。でも今のAIは、画像を見て言葉で説明することはできても、基本的にすべて言語化してから推論してるわけです。


Phrona:それって、ある意味で不自然ですよね。私たちって、頭の中でイメージをくるくる回転させたり、重ね合わせたりしながら考えてる。それを全部言葉にしようとすると、かえって効率が悪くなりそう。


「見えない画像」で推論する革新的な仕組み


富良野:まさにそこがポイントです。従来のAIは高解像度の絵を描くことに処理能力を使いすぎて、肝心の「考える」部分がおろそかになってたんです。


Phrona:画像を作ることと、抽象的に「考える」ことは、実は全然違うスキルなんですね。人間でも、絵が上手な人と空間把握が得意な人は違ったりしますもんね。


富良野:その通りです。従来の統合型モデルは、外部の画像デコーダーを組み込んで大規模な画像生成の事前学習をしていたんですが、論理的推論の認知的要求とピクセル合成のタスクは大きく異なるため、一つのモデルで両方をマスターしようとすると推論品質が劣化してしまうんです。


Phrona:でも、どうやってそんな曖昧な視覚情報を扱うんでしょう? 機械にとって「ぼんやりした輪郭」なんて概念があるんですか?


富良野:技術的には、潜在的視覚トークンという概念を使ってるんです。具体的には、モデルが「視覚的に考える」と判断した時に、特別なトークンを生成して、その時点での隠れ状態をコンパクトな視覚埋め込みとして再利用し、コンテキストに追加するんです。


Phrona:トークンって、言葉を細かく区切った単位ですよね。それの視覚版みたいなものを作ったと。でも、それってどういう「見た目」なんだろう。私たちには見えないものですよね?


富良野:僕たちが見ることのできない、数値の羅列として表現された視覚的特徴なんです。論文では、典型的に4つの潜在トークンを使ってるみたいですね。でも面白いのは、AIにとってはそれが「意味のある視覚情報」として機能するということ。


Phrona:不思議ですね。人間の頭の中の曖昧な視覚イメージも、きっと脳の電気信号として見れば数値の羅列かもしれないし。


二段階学習という巧妙な訓練戦略


富良野:Mirageの学習プロセスは、実に巧妙なんです。第一段階では、テキストと潜在視覚トークンの両方を同時に監督して、視覚トークンを視覚的なサブスペースに根付かせる。


Phrona:最初は「正解を見せてもらって」基礎を覚えるってことですか?


富良野:はい、補助画像を使って学習させます。迷路タスクなら、正解の経路を赤い矢印で示した地図とか。ジグソーパズルなら、候補のピースを参照画像の横に並べた合成画像とか。


Phrona:なるほど、まずはお手本を見せて、それをコンパクトに圧縮する方法を学ばせるんですね。


富良野:そして第二段階では、潜在ベクトルへの直接的な監督を取り除いて、テキストトークンのみで最適化するんです。まるで「訓練輪を外して自転車に乗る」ような感じですね。


Phrona:最初は手取り足取り教えてもらって、その後は「自分で考えなさい」って。なんだか人間の学習プロセスに似てる気がする。でも、なんで二段階にする必要があるんでしょう?


富良野:第一段階だけだと、圧縮された画像埋め込みを再構築することを強制するため、視覚的整合には効果的だけれど、モデルを過度に制約してしまい、質問に正しく答えるという主要な目標から能力をそらしてしまうんです。


Phrona:制約がありすぎると、かえって自由な発想ができなくなるってことですね。それって人間の創作活動にも通じる気がする。


驚くべき実験結果


富良野:実験結果がかなり印象的なんです。VSPベンチマークの空間推論タスクで3%、空間計画タスクで11%も精度が向上してる。


Phrona:11%! それってかなり大きな改善じゃないですか。


富良野:ええ。しかも興味深いのは、AnoleやMVoTのような、明示的に画像トークンを生成する統合型モデルと比べても、Mirageの方が良い結果を出してるんです。


Phrona:え、画像を直接作れるモデルの方が弱いんですか? それは意外ですね。


富良野:同じデータで微調整しても、統合型モデルは空間推論タスクで61%、空間計画タスクで11%の精度しか達成できない。特にAnoleは微調整後でも空間計画タスクで有効な回答を生成するのに苦労しているんです。


Phrona:リアルな画像を作ることと、抽象的に「考える」ことは別物なんですね。Mirageは画像生成をバイパスして、推論により多くの計算容量を割り当てることができるってことか。


強化学習でさらなる進化を


富良野:さらに興味深いのは、この二段階学習の後に強化学習も使ってることなんです。グループ相対政策最適化(GRPO)を使って、精度報酬とフォーマット報酬の両方を考慮して最適化している。


Phrona:強化学習って、試行錯誤を通じて学習する手法ですよね。AIが自分で考えて、うまくいったらご褒美をもらって、だんだん上手になっていく。


富良野:まさにそうです。実際に、強化学習を適用することで、VSPタスクでさらに2%の精度向上を達成しているんです。


Phrona:AIが自分なりの「視覚的思考パターン」を見つけていくってことですね。それって、人間が経験を積んで直感が鋭くなっていくプロセスに似てるかも。


技術的な洞察


富良野:実は論文では、t-SNEという手法を使って潜在トークンを可視化してるんです。その結果、テキストの埋め込みとは明確に異なる領域に、視覚トークンがクラスターを形成してることが分かったそうです。


Phrona:つまり、ちゃんと視覚的な情報として機能してるってこと?


富良野:そう、潜在埋め込みが視覚的サブスペースの近くにありながらも、テキスト分布とは明確に分離されている。しかも面白いのは、第二段階の学習後も、潜在トークンは視覚的な領域の近くに留まりつつ、タスクに最適化された位置に移動してるんです。


Phrona:人間の心的イメージも、経験を積むにつれて洗練されていきますもんね。最初は写真みたいに詳細だったのが、だんだん必要な部分だけが強調されるようになるというか。


応用可能性と限界


富良野:空間推論が得意になるということは、建築設計、ロボットの経路計画、製品の組み立て指示など、幅広い分野での応用が期待できますね。


Phrona:医療分野でも使えそう。レントゲン写真を見ながら、この角度から見ると骨折の位置が...みたいな診断プロセスとか。手術の計画とかでも、頭の中で空間を操作する能力って重要ですよね。


富良野:それは面白いアイデアですね。ただ、論文でも限界として、合成データの品質に依存することや、現在の評価が空間推論ベンチマークに限定されていることが挙げられています。


Phrona:確かに。人間だって視覚的思考が得意な人と苦手な人がいるし、分野によっても違いますもんね。


人間とAIの視覚的思考の違い


富良野:でも、重要な違いもあります。人間の視覚的思考って、感情や記憶と深く結びついてるじゃないですか。


Phrona:そうですね。懐かしい景色を思い浮かべる時の温かい気持ちとか。私たちにとって視覚的なイメージって、単なる情報処理のツールじゃなくて、もっと豊かで複雑なものですもんね。


富良野:現在のMirageは、純粋に論理的・空間的な推論に特化してる。感情的な色彩や個人的な記憶は扱えない。


Phrona:そこが人間とAIの視覚的思考の決定的な違いなのかも。でも完全に同じになる必要はないのかも。AIならではの視覚的思考の特徴があってもいいんじゃないかな。


富良野:そうですね。人間とは違う形の「機械の心の目」を持つAIが、僕らにはできない方法で世界を「見て」「考えて」くれる。それはそれで価値のあることかもしれません。


Phrona:技術の進歩って、いつもそうやって少しずつ人間に近づいていくんですね。まずは論理的・空間的な視覚的推論を身につけて、将来的にはより人間らしい、感情的な側面も含んだ視覚的思考ができるようになるかもしれない。


富良野:この研究は、単にAIの性能を上げるだけじゃなくて、知能そのものの本質に迫ろうとしてる気がします。


Phrona:言葉と視覚、論理と直感、そういった異なるモードを統合して思考できるのが、本当の知能なのかもしれませんね。




ポイント整理


  • 人間は心的イメージ(メンタルイメージ)を使って、完全な画像ではなく必要な視覚的手がかりだけを保持しながら推論している

  • 従来の統合型モデルは画像生成に処理能力を使いすぎて、肝心の推論能力が劣化してしまう問題があった

  • Mirageは、AIに潜在的な視覚トークンを生成させることで、画像を作らずに視覚的推論を可能にする新しいフレームワーク

  • 2段階の学習により、まず視覚的基礎を作り、次に制約を緩めてタスクに最適化された柔軟な推論能力を獲得させる

  • 実験では、テキストのみの推論と比べて大幅な性能向上を実現し、画像生成する統合モデルよりも良い結果を示した

  • 強化学習によってさらなる性能向上が可能で、AIが独自の視覚的思考パターンを発見していく

  • 潜在トークンは確かに視覚的情報を保持しており、人間の心的イメージに似た抽象化された表現として機能している

  • 現時点では論理的・空間的推論に限定されており、人間の感情や記憶と結びついた視覚的思考とは異なる



キーワード解説


【視覚言語モデル(VLM)】

画像とテキストの両方を理解できるAIモデル


【心的イメージ(メンタルイメージ)】

人間が頭の中で構築・操作する視覚的表現


【潜在的視覚トークン】

画像の特徴を圧縮した内部表現


【埋め込み表現】

データを数値ベクトルに変換したもの


【t-SNE】

高次元データを2次元に可視化する手法


【空間推論】

物体の位置関係や動きを理解する能力


【強化学習】

試行錯誤を通じて最適な行動を学習する手法


【GRPO】

グループ相対政策最適化、強化学習の一手法



本稿は近日中にnoteにも掲載予定です。
ご関心を持っていただけましたら、note上でご感想などお聞かせいただけると幸いです。
bottom of page