AIは本当に「考えて」いるの?──話題の研究をめぐる論争
- Seo Seungchul
- 6月17日
- 読了時間: 7分
更新日:6月30日

シリーズ: 論文渉猟
◆今回の論文:
"The Illusion of Thinking"(Parshin Shojaee et al.、2025)
"The Illusion of the Illusion of Thinking"(A. Lawsen, C. Opus、2025)
ChatGPTやClaude、最近話題のo3など、AIが複雑な問題を解く時に「考えている」ように見えることがあります。実際、これらの最新AIは問題を解く前に長々と「思考プロセス」を書き出して、まるで人間のように悩んでいるように見えます。でも本当にAIは「考えて」いるのでしょうか?
2025年6月、Appleの研究者たちがこの疑問に答える衝撃的な研究を発表しました。結論は厳しいものでした──AIの「思考」は幻想に過ぎない。
しかし、この結論に真っ向から反論する研究者もすぐに現れました。「問題はAIの能力ではなく、私たちの測定方法にある」と主張しました。一体どちらが正しいのでしょうか?この論争は、私たちがAIをどう理解し、評価すべきかという根本的な問題を投げかけています。
富良野: Appleが発表したAIの論文、なんだかすごい論争になっていますね。「AIは本当は考えていないのでは?」という、かなり挑発的な内容の。
Phrona: ええ、とても興味深い論争です。Appleは「AIの本当の思考力」を試すために、いくつかの古典的なパズルゲームを使いました。有名な「ハノイの塔」などですね。
富良野: なぜまたパズルで試したんでしょう?
Phrona: 数学の問題だと、AIがネット上の膨大なデータから答えを「暗記」している可能性があるからです。でもパズルなら、ディスクの枚数を増やすように難易度を自由に調整できるので、AIの「地力」が試せるんです。
富良野: なるほど。それで、結果はどうだったんですか?
Phrona: 驚くべき、そして少し奇妙な結果でした。簡単な問題では、思考過程を書き出さない旧来のAIの方が成績が良かった。中程度の難易度では、思考を書き出す「考えるAI」が逆転した。そして最も衝撃的だったのが、問題が難しくなると、両方のAIが完全に機能停止してしまったことです。
富良野: 機能停止、ですか。
Phrona: はい、正答率が0%になりました。さらに不可解なことに、問題が難しくなるほど、AIは思考に費やす時間を減らしたんです。
富良野: 人間とは真逆ですね。難しい問題ほど時間をかけるのが普通なのに。まるで、早々に見切りをつけて諦めてしまうみたいだ。
Phrona: まさに。ところが、この結論に「実験の設計自体に欠陥がある」と真っ向から反論した研究者たちが現れました。
富良野: その反論論文、共著者にAnthropic社のAI「Claude Opus」の名前が入っているのがまた面白いですよね。
Phrona: ええ。もちろんAIが自発的に論文を書いたわけではありませんが、まるでAI自身が「私たちの能力を正しく測ってください」と訴えているようにも見えますね。
富良野: その実験の欠陥とは、具体的にはどんな点だったんですか?
Phrona: 大きく3つです。まず、AIの文字数制限。例えばハノイの塔で10枚のディスクを動かす手順は1000ステップを超えますが、AIには一度に出力できる文字数に上限があるんです。
富良野: ああ、能力が足りないんじゃなくて、単純に答えを書ききれずに途中で止まってしまったと。
Phrona: その通りです。実際、あるAIは「解法は分かっているが、長すぎるのでここで止める」と明言していました。2つ目は出題ミス。絶対に解けない設定のパズルを出題し、それをAIの失敗例としてカウントしていたんです。
富良野: それはフェアじゃないですね。そして3つ目は?
Phrona: 評価方法です。Appleは、全手順を文章で完璧に書き出すことを求めました。それに対し、反論側は、解法をプログラムのコードで書かせるというアプローチを取ったんです。
富良野: それで結果が変わったんですか?
Phrona: 劇的に変わりました。Appleが「完全に解けない」と結論づけた15枚のハノイの塔を、AIは5000字足らずのプログラムコードでいとも簡単に解いてしまったんです。
富良野: ということは、AIは答えを理解していたのに、「どう答えるか」という形式に縛られていただけなんですね。まるで「1から1万まで暗唱はできるけど、全部書き出すのは面倒」と言っているようなものか。
Phrona: その可能性が高いです。ただ、これで話が終わらないのが、この論争の面白いところなんです。
富良野: というと?
Phrona: Appleの指摘が、必ずしも全て的外れだったわけでもないんです。反論論文の研究者たちも認めているんですが、AIの行動にはまだ不可解な点が多くて。例えば、簡単な問題で正解を見つけた後も、延々と無意味な試行を続けたり。
富良野: 確かに、効率的じゃないですね。人間なら正解が見つかればそこで思考を止めます。
Phrona: それに、同じAIでもパズルの種類によって性能に一貫性がなかった。ハノイの塔では100手以上正確なのに、別のパズルでは5手で間違える、といった具合に。
富良野: なるほど。本当に「推論能力」があるなら、もっと安定したパフォーマンスを示すはずだと。
Phrona: まさに。この論争で浮き彫りになったのは、結局「AIの能力を正しく測ること自体の難しさ」なんです。反論論文の最後の一文が、それを象徴していました。
富良野: なんて書かれていたんですか?
Phrona: 「問題は、AIが推論できるかどうかではない。私たち人間が『推論』と『文字を打つこと』を区別できるかどうかだ」と。
富良野: 深いですね…。私たちが「知性」だと思って測っているものが、実はAIにとっては単なる「作業」でしかないのかもしれない。
Phrona: そうなんです。この論争は、結局私たちの「知性とは何か」という問いに跳ね返ってきます。私たちはつい人間を基準にしてしまいますが、AIは全く違う認知システムかもしれない。例えば、AIが「長すぎるので止める」と言うのは、人間には「諦め」に見えても、AIの論理では最も効率的な「最適解」なのかもしれません。
富良野: だとしたら、議論の的は「AIが人間のように考えられるか」ではなく、「人間とAIがどう協力し、お互いの長所を活かせるか」という視点に変わってきますね。
Phrona: まさにおっしゃる通りです。そして、その関係性を設計するのは、もう研究者だけの仕事ではない。学生がAIで宿題をし、会社員が資料を作る、そういう現場のユーザーたちがAIの能力をどう感じ、どう使っているか。その声こそが、これからの評価基準になるべきなんです。
富良野: 健全な批判の応酬が、AIとの付き合い方を次のステージに進めていくわけですね。
Phrona: はい。この一連の論争は、単なる揚げ足取りではなく、AIをより深く理解するための、非常に建設的なプロセスだと思います。最終的には、私たち全員の利益に繋がっていくはずです。
ポイント整理
AIの「思考」とは
問題を解く前に思考プロセスを文章で書き出すこと
3段階の性能
簡単→普通のAIが優秀
中程度→考えるAIが優秀
難しい→両方とも失敗
実験の問題点
文字数制限
解けない問題の出題
評価方法の不適切さ
代替実験の成功
出題形式を変えると同じ問題が解けるようになった
一貫性の欠如
同じAIでも問題の種類によって性能が大きく異なる
人間中心主義からの脱却
AIを人間の知性の模倣ではなく別種の認知システムとして理解
協力関係の重視
「AIが考えるか」より「人間とAIが協力できるか」を重視
市民参加型評価
研究者だけでなく実際の使用者の視点を取り入れた評価の必要性
キーワード解説
【大規模推論モデル】
思考プロセスを書き出してから答える最新AI
【ハノイの塔】
ディスクを移動させる有名なパズルゲーム
【コンポジション複雑度】
問題を解くのに必要な手順の数
【文字数制限】
AIが一度に生成できるテキスト量の上限
【人間中心主義】
人間の知性を基準としてAIを評価してしまう傾向
【認知システム】
情報を処理し判断を行う仕組みの総称
【市民参加型アプローチ】
専門家だけでなく一般市民も参加する問題解決手法
【共進化】
異なるシステムが相互に影響し合いながら共に発展すること
【AI参加型研究】
AIが研究の「当事者」として議論に参加する新しい研究スタイル