top of page

AIは本当に「考えて」いるの?──話題の研究をめぐる論争

更新日:6月30日

シリーズ: 論文渉猟


◆今回の論文:
  1. "The Illusion of Thinking"(Parshin Shojaee et al.、2025)
  2. "The Illusion of the Illusion of Thinking"(A. Lawsen, C. Opus、2025)

ChatGPTやClaude、最近話題のo3など、AIが複雑な問題を解く時に「考えている」ように見えることがあります。実際、これらの最新AIは問題を解く前に長々と「思考プロセス」を書き出して、まるで人間のように悩んでいるように見えます。でも本当にAIは「考えて」いるのでしょうか?


2025年6月、Appleの研究者たちがこの疑問に答える衝撃的な研究を発表しました。結論は厳しいものでした──AIの「思考」は幻想に過ぎない。


しかし、この結論に真っ向から反論する研究者もすぐに現れました。「問題はAIの能力ではなく、私たちの測定方法にある」と主張しました。一体どちらが正しいのでしょうか?この論争は、私たちがAIをどう理解し、評価すべきかという根本的な問題を投げかけています。



富良野: Appleが発表したAIの論文、なんだかすごい論争になっていますね。「AIは本当は考えていないのでは?」という、かなり挑発的な内容の。


Phrona: ええ、とても興味深い論争です。Appleは「AIの本当の思考力」を試すために、いくつかの古典的なパズルゲームを使いました。有名な「ハノイの塔」などですね。


富良野:  なぜまたパズルで試したんでしょう?


Phrona: 数学の問題だと、AIがネット上の膨大なデータから答えを「暗記」している可能性があるからです。でもパズルなら、ディスクの枚数を増やすように難易度を自由に調整できるので、AIの「地力」が試せるんです。


富良野: なるほど。それで、結果はどうだったんですか?


Phrona: 驚くべき、そして少し奇妙な結果でした。簡単な問題では、思考過程を書き出さない旧来のAIの方が成績が良かった。中程度の難易度では、思考を書き出す「考えるAI」が逆転した。そして最も衝撃的だったのが、問題が難しくなると、両方のAIが完全に機能停止してしまったことです。


富良野:  機能停止、ですか。


Phrona: はい、正答率が0%になりました。さらに不可解なことに、問題が難しくなるほど、AIは思考に費やす時間を減らしたんです。


富良野: 人間とは真逆ですね。難しい問題ほど時間をかけるのが普通なのに。まるで、早々に見切りをつけて諦めてしまうみたいだ。


Phrona: まさに。ところが、この結論に「実験の設計自体に欠陥がある」と真っ向から反論した研究者たちが現れました。


富良野:  その反論論文、共著者にAnthropic社のAI「Claude Opus」の名前が入っているのがまた面白いですよね。


Phrona: ええ。もちろんAIが自発的に論文を書いたわけではありませんが、まるでAI自身が「私たちの能力を正しく測ってください」と訴えているようにも見えますね。


富良野: その実験の欠陥とは、具体的にはどんな点だったんですか?


Phrona: 大きく3つです。まず、AIの文字数制限。例えばハノイの塔で10枚のディスクを動かす手順は1000ステップを超えますが、AIには一度に出力できる文字数に上限があるんです。


富良野: ああ、能力が足りないんじゃなくて、単純に答えを書ききれずに途中で止まってしまったと。


Phrona: その通りです。実際、あるAIは「解法は分かっているが、長すぎるのでここで止める」と明言していました。2つ目は出題ミス。絶対に解けない設定のパズルを出題し、それをAIの失敗例としてカウントしていたんです。


富良野: それはフェアじゃないですね。そして3つ目は?


Phrona: 評価方法です。Appleは、全手順を文章で完璧に書き出すことを求めました。それに対し、反論側は、解法をプログラムのコードで書かせるというアプローチを取ったんです。


富良野: それで結果が変わったんですか?


Phrona: 劇的に変わりました。Appleが「完全に解けない」と結論づけた15枚のハノイの塔を、AIは5000字足らずのプログラムコードでいとも簡単に解いてしまったんです。


富良野: ということは、AIは答えを理解していたのに、「どう答えるか」という形式に縛られていただけなんですね。まるで「1から1万まで暗唱はできるけど、全部書き出すのは面倒」と言っているようなものか。


Phrona: その可能性が高いです。ただ、これで話が終わらないのが、この論争の面白いところなんです。


富良野: というと?


Phrona: Appleの指摘が、必ずしも全て的外れだったわけでもないんです。反論論文の研究者たちも認めているんですが、AIの行動にはまだ不可解な点が多くて。例えば、簡単な問題で正解を見つけた後も、延々と無意味な試行を続けたり。


富良野:  確かに、効率的じゃないですね。人間なら正解が見つかればそこで思考を止めます。

Phrona: それに、同じAIでもパズルの種類によって性能に一貫性がなかった。ハノイの塔では100手以上正確なのに、別のパズルでは5手で間違える、といった具合に。


富良野: なるほど。本当に「推論能力」があるなら、もっと安定したパフォーマンスを示すはずだと。


Phrona: まさに。この論争で浮き彫りになったのは、結局「AIの能力を正しく測ること自体の難しさ」なんです。反論論文の最後の一文が、それを象徴していました。


富良野:  なんて書かれていたんですか?


Phrona: 「問題は、AIが推論できるかどうかではない。私たち人間が『推論』と『文字を打つこと』を区別できるかどうかだ」と。


富良野: 深いですね…。私たちが「知性」だと思って測っているものが、実はAIにとっては単なる「作業」でしかないのかもしれない。


Phrona: そうなんです。この論争は、結局私たちの「知性とは何か」という問いに跳ね返ってきます。私たちはつい人間を基準にしてしまいますが、AIは全く違う認知システムかもしれない。例えば、AIが「長すぎるので止める」と言うのは、人間には「諦め」に見えても、AIの論理では最も効率的な「最適解」なのかもしれません。


富良野:  だとしたら、議論の的は「AIが人間のように考えられるか」ではなく、「人間とAIがどう協力し、お互いの長所を活かせるか」という視点に変わってきますね。


Phrona: まさにおっしゃる通りです。そして、その関係性を設計するのは、もう研究者だけの仕事ではない。学生がAIで宿題をし、会社員が資料を作る、そういう現場のユーザーたちがAIの能力をどう感じ、どう使っているか。その声こそが、これからの評価基準になるべきなんです。


富良野: 健全な批判の応酬が、AIとの付き合い方を次のステージに進めていくわけですね。


Phrona: はい。この一連の論争は、単なる揚げ足取りではなく、AIをより深く理解するための、非常に建設的なプロセスだと思います。最終的には、私たち全員の利益に繋がっていくはずです。



ポイント整理


  • AIの「思考」とは

    • 問題を解く前に思考プロセスを文章で書き出すこと

  • 3段階の性能

    • 簡単→普通のAIが優秀

    • 中程度→考えるAIが優秀

    • 難しい→両方とも失敗

  • 実験の問題点

    • 文字数制限

    • 解けない問題の出題

    • 評価方法の不適切さ

  • 代替実験の成功

    • 出題形式を変えると同じ問題が解けるようになった

  • 一貫性の欠如

    • 同じAIでも問題の種類によって性能が大きく異なる

  • 人間中心主義からの脱却

    • AIを人間の知性の模倣ではなく別種の認知システムとして理解

  • 協力関係の重視

    • 「AIが考えるか」より「人間とAIが協力できるか」を重視

  • 市民参加型評価

    • 研究者だけでなく実際の使用者の視点を取り入れた評価の必要性


キーワード解説


【大規模推論モデル】

思考プロセスを書き出してから答える最新AI


【ハノイの塔】

ディスクを移動させる有名なパズルゲーム


【コンポジション複雑度】

問題を解くのに必要な手順の数


【文字数制限】

AIが一度に生成できるテキスト量の上限


【人間中心主義】

人間の知性を基準としてAIを評価してしまう傾向


【認知システム】

情報を処理し判断を行う仕組みの総称


【市民参加型アプローチ】

専門家だけでなく一般市民も参加する問題解決手法


【共進化】

異なるシステムが相互に影響し合いながら共に発展すること


【AI参加型研究】

AIが研究の「当事者」として議論に参加する新しい研究スタイル


本記事と同じ内容は、noteにも掲載しております。
ご関心を持っていただけましたら、note上でご感想などお聞かせいただけると幸いです。
bottom of page