AGIは「言葉」を超えて──本当の知能は記憶と推論の統合から生まれる
- Seo Seungchul

- 7月6日
- 読了時間: 9分
更新日:7月16日

シリーズ: 論文渉猟
◆今回の論文: Rizwan Qureshi et al. "Thinking Beyond Tokens: From Brain-Inspired Intelligence to Cognitive Foundations for Artificial General Intelligence and its Societal Impact" (arXiv, 2025年7月1日)
AIがどこまで人間に近づけるのか。私たちは今、その答えを求め続けています。最新のChatGPTやClaude、DeepSeekといったAIたちは確かに驚くほど賢くなりました。複雑な質問に答え、画像を理解し、まるで人間のように会話もします。
しかし、これらのAIの核心にある「トークン予測」という仕組みには、まだ大きな限界があります。言葉を一つ一つ予測して文章を作る、それだけでは本当の知能と呼べるのでしょうか。新しい論文「Thinking Beyond Tokens」は、真の汎用人工知能(AGI)への道筋を探る挑戦的な研究です。
この研究が提案するのは、単純にAIを大きくするだけでは限界があるという考え方。代わりに、記憶と推論を巧みに組み合わせ、複数のAIが協力し合う新しいアプローチが必要だと論じています。富良野とPhronaの対話を通じて、AIの未来がどこに向かおうとしているのか、一緒に考えてみませんか。
記憶と推論の新しい関係
富良野:これまでって、AIを大きくすれば大きくするほど賢くなるっていう発想だったじゃないですか。パラメータ数を増やして、データをたくさん食べさせて。でもこの論文は、そういう「量的な拡張」だけじゃ限界があるって言ってるんです。
Phrona:確かに、最近のAIって確かにすごいけれど、なんというか、深く考えているというより、膨大な知識を組み合わせて答えを作ってる感じがしますよね。
富良野:まさに。論文で言ってるのは、真の知能っていうのは「記憶と推論の統合」から生まれるっていう話なんです。つまり、ただ覚えているだけでもダメだし、その場しのぎの推論だけでもダメ。両方が有機的に結びついて初めて、本当の意味での知性が生まれるんじゃないかって。
Phrona:面白いですね。人間でいえば、単に知識を暗記してるだけの人と、その知識を使って新しいことを考え出せる人の違いみたいな。
富良野:そうそう。で、その鍵になるのが「情報圧縮」なんですって。膨大な情報をうまく圧縮して、必要な時に適切に取り出せる仕組み。これがあると、限られた計算資源でも柔軟に対応できるようになる。
トークンの呪縛からの解放
Phrona:でも「トークンを超えて」っていうタイトルが気になります。トークンっていうのは、AIが文章を理解する時の最小単位ですよね?
富良野:その通り。今のAIって、文章を小さな単位に区切って、次に来る単語を予測するっていう作業を延々と繰り返してるんです。「今日は」の次に「良い」が来て、その次に「天気」が来るかもしれない、みたいに。
Phrona:でもそれって、すごく局所的な処理ですよね。もっと大きな文脈とか、全体的な流れを見失ってしまいそう。
富良野:まさにそこが問題なんです。人間が文章を書く時って、最初から最後までの大まかな構成を頭に描いて、その中で一つ一つの言葉を選んでいくじゃないですか。でも今のAIは、その場その場で次の言葉を考えてるだけ。
Phrona:なるほど。だから時々、途中で話がずれたり、同じことを繰り返したりするんですね。
富良野:そうなんです。論文では、この限界を突破するために「モジュラー推論」とか「永続的記憶」っていう概念を提案してる。つまり、AIの中にいろんな専門分野の小さなモジュールを作って、それぞれが連携しながら、長期的な記憶も活用して判断するっていう仕組みです。
エージェントの時代へ
Phrona:「エージェンティックRAG」っていう言葉も出てきましたけど、これは何なんでしょう?
富良野:RAGっていうのは、Retrieval-Augmented Generationの略で、必要な情報を外部から取ってきて、それを使って回答を生成する技術なんです。で、「エージェンティック」っていうのは、それをもっと主体的に、計画的にやろうっていう話。
Phrona:つまり、ただ情報を持ってくるだけじゃなくて?
富良野:そう。「この問題を解くためには、まずAという情報が必要で、それをもとにBという分析をして、最後にCという結論を導こう」みたいに、ちゃんと戦略を立てて行動するAIってことです。
Phrona:それって、すごく人間らしい思考プロセスですね。私たちも何か調べ物をする時、漠然と検索するんじゃなくて、どういう順番で情報を集めるか考えますもん。
富良野:そうなんです。しかも論文では、こういうエージェントが複数協力し合う「マルチエージェント調整」っていうのも重要だって言ってる。一つのAIがすべてを担うんじゃなくて、それぞれ得意分野を持ったAIたちがチームを組んで問題を解決する。
身体性と認知の新しい関係
Phrona:論文の中では「身体性」についても触れられてました。私たちが何かを理解する時って、頭だけじゃなくて、手で触ったり、体で感じたりしますよね。
富良野:そうそう。例えば「重い」っていう概念を理解するのに、実際に重いものを持った経験がないと、本当の意味では理解できないんじゃないかって。これは認知科学の古くからの議論なんですが、知能っていうのは抽象的な計算だけじゃなくて、物理的な身体との相互作用から生まれるんじゃないかっていう考え方があります。
Phrona:でもAIに身体を与えるっていうのは、技術的にすごく難しそうですが。
富良野:論文では、Vision-Language Models(VLM)っていう、画像と言語を同時に理解できるAIを「身体性への入り口」として捉えてるんです。カメラを通じて世界を見て、その視覚情報と言語を結びつけることで、より豊かな理解が可能になるんじゃないかって。
Phrona:つまり、直接的な身体はなくても、センサーを通じて世界と関わることで、擬似的な身体性を獲得するっていうことですね。
富良野:まさに。そして重要なのは、これが単なる「知覚モジュール」じゃなくて、「協調的なタスク完成のためのインターフェース」として機能するってことなんです。
神経記号システムの可能性
Phrona:「神経記号システム」っていう言葉も気になったんですが、これはどういうものなんでしょう?
富良野:これは、ニューラルネットワークの学習能力と、記号処理の論理的推論能力を組み合わせようっていう試みですね。今のAIって、どちらかというとニューラルネットワーク一辺倒じゃないですか。
Phrona:確かに。でも記号処理って何ですか?
富良野:昔のAI研究で主流だった手法で、「AならばB」「BならばC」みたいな論理的なルールを明示的に書いて、それをもとに推論するっていうやり方です。とても厳密で説明しやすいんだけど、柔軟性に欠ける。
Phrona:ああ、それでニューラルネットワークの柔軟性と組み合わせようっていうことなんですね。
富良野:はい、論文では、統計的学習と目標指向的認知の間のギャップを埋める方法として、この神経記号システムを位置づけてる。つまり、パターン認識は得意だけど論理は苦手なニューラルネットワークと、論理は得意だけど学習は苦手な記号システムを、うまく組み合わせようっていう話です。
真の知能への課題と可能性
Phrona:でも、こういう技術的な話を聞いてると、根本的な疑問が湧いてくるんですよね。機械が本当に「考える」ことってできるんでしょうか?
富良野:それって、哲学的にもすごく深い問題ですよね。意識とか主観的体験とか、そういうものがAIに宿るのかどうか。論文でも最後の方で、科学的・技術的・倫理的な課題について触れていましたが、技術的に可能になったとしても、それが社会にとって良いことなのかどうかっていう問題もある。
Phrona:特に「透明性」と「価値の整合性」っていうのが重要そうですね。AIがどういう判断プロセスで答えを出しているのか、私たちには見えない部分が多すぎる。
富良野:そうなんです。今のAIって、すごく賢い答えを出すんだけど、「なぜその答えに至ったのか」がブラックボックスになってる。これが医療とか法律とか、重要な判断を伴う分野での導入を難しくしてる一因でもある。
Phrona:でも考えてみると、人間の思考だって完全に透明じゃないですよね。自分がなぜそう判断したのか、説明できないことも多い。
富良野:確かに。でも人間の場合は、少なくとも同じ人間として、ある程度は思考プロセスを想像できるじゃないですか。AIの場合は、そもそも思考の仕組み自体が違うから、理解するのがより困難になる。
社会との調和
Phrona:論文の最後で「社会的に根ざした」AIという表現が出てきましたが、これはどういう意味なんでしょう?
富良野:これは僕の解釈ですが、AIが単に技術的に優秀なだけじゃなくて、人間社会の価値観とか文化とかを理解して、それに沿った判断ができるようになるっていうことじゃないでしょうか。
Phrona:でも、価値観って文化や時代によって変わるものですよね。どの価値観を基準にするのかっていうのは、すごく難しい問題になりそう。
富良野:まさにそこが課題なんです。論文でも「価値の整合性」って言葉を使ってるけど、これは決して簡単な技術的問題じゃない。社会全体で議論していかなければならない問題だと思います。
Phrona:AIの能力が上がれば上がるほど、その影響力も大きくなりますもんね。だからこそ、技術開発と並行して、社会制度や倫理的な枠組みも整備していく必要がある。
富良野:そうですね。この論文が提示してるのは、ただの技術論じゃなくて、人間とAIが共存する未来をどう築いていくかっていう、より大きな問いなのかもしれません。
ポイント整理
現在のAIの限界
トークン予測に基づく言語モデルは、局所的な処理に留まり、全体的な文脈理解や長期的な推論に課題がある
真の知能の定義
単なるスケール拡大ではなく、記憶と推論の統合、情報圧縮による適応的行動が重要
新しいアーキテクチャ
モジュラー推論、永続的記憶、マルチエージェント調整を組み合わせた仕組みが必要
エージェンティックRAG
単純な情報検索ではなく、計画的で戦略的な情報収集と推論を行うシステム
身体性の重要性
Vision-Language Modelsを通じた擬似的身体性により、より豊かな世界理解が可能
神経記号システム
ニューラルネットワークの柔軟性と記号処理の論理性を統合したハイブリッドアプローチ
社会的課題
透明性、価値の整合性、社会との調和を考慮したAGI開発の必要性
キーワード解説
【AGI(汎用人工知能)】
人間と同等の認知能力を持つ人工知能システム
【トークン予測】
文章を小単位に分割し、次に来る単語を予測する現在のAIの基本的な処理方式
【モジュラー推論】
専門化された複数のモジュールが連携して推論を行う仕組み
【エージェンティックRAG】
検索拡張生成を主体的・計画的に実行するシステム
【Vision-Language Models (VLM)】
画像と言語を同時に理解・処理できるマルチモーダルAI
【神経記号システム】
ニューラルネットワークと記号処理を組み合わせたハイブリッドAI
【情報圧縮】
データを効率的に圧縮し、必要時に適切に復元する技術
【認知スキャフォールディング】
学習や思考を支援する認知的な足場づくり
【価値の整合性】
AIの判断が人間社会の価値観と一致するよう調整すること