top of page

AIが「じっくり考える」時代をEnergy-Based Transformersが切り開く──計算するAIから判断するAIへ

更新日:7月11日

ree

シリーズ: 論文渉猟


◆今回の論文:Alexi Gladstone et al. "Energy-Based Transformers are Scalable Learners and Thinkers" (arXiv, 2025年7月2日)


あなたのコンピューターが、質問に対して素早く答えるだけでなく、一度立ち止まって「うーん、これで本当にいいかな?」と考え直し、いくつかの可能性を検討してから、より良い答えに修正してくれたらどうでしょう。まるで慎重な人間のように、段階的に推論し、自分の論理をチェックし、回答を洗練させていく。心理学でいうSystem 2思考―私たちが数学の問題を解いたり、重要な決断を下したりするときに使う、あの深く考える力です。


でも、AIが本当にそんなことができるのでしょうか?しかも、特定のタスクのために特別に訓練されることなく、自然にその能力を身につけることは可能なのでしょうか?2025年7月に発表された革新的な研究「Energy-Based Transformers(EBT)」は、まさにこの問いに対する画期的な答えを提示しています。


従来のトランスフォーマー(ChatGPTなどの基盤技術)とは根本的に異なり、EBTは推論の段階で自分の答えを評価し、改善する能力を持っています。学習時には最大35%の性能向上、推論時のSystem 2思考では29%もの改善を実現し、画像処理でも他の最先端モデルを上回る結果を出しています。この技術が切り開く、AIの新しい可能性について、富良野とPhronaと一緒に探っていきましょう。




AIが「じっくり考える」って何だろう


富良野:このEBT(Energy-Based Transformers)に関する論文を読んでて思ったんですが、AIが「System 2思考」をするって言うじゃないですか。でも、そもそもこのSystem 2思考って何なんでしょうね。


Phrona:あー、確かに。心理学者のダニエル・カーネマンが提唱した概念ですよね。私たちが何かを判断するとき、パッと瞬間的に答えが浮かぶときと、うーんと考え込んで時間をかけて答えを出すときがあるでしょう?


富良野:ありますね。たとえば「2+2は?」なら一瞬で4って答えられるけど、「347×89は?」だと紙に書いて計算したくなる。


Phrona:そうそう、まさにそれ。前者がSystem 1で、後者がSystem 2です。System 1は自動的で高速、System 2は意図的で慎重。従来のAIって、基本的にはSystem 1的な反応しかできなかったんですよね。


富良野:なるほど。でも、EBTは違うってことですか?


Phrona:そこが面白いところで、EBTは予測に対して「エネルギー値」を割り当てるんです。入力と候補予測の組み合わせが妥当かどうかを、この数値で評価する。そして、エネルギーが最小になるまで繰り返し改善していく。


富良野:ちょっと待ってください。「エネルギー」って言うと、省電力とか計算効率の話かと思っちゃいますが、そういうことじゃないんですよね?


Phrona:あ、確かにちょっと紛らわしいですよね。ここでいう「エネルギー」は物理的な電力消費とは全然違って、数学的な概念なんです。「この組み合わせはどのくらい自然か?」っていうスコアみたいなもの。物理学の「安定状態は低エネルギー」という原理を借りてきた比喩なんですよ。


富良野:つまり、AIが自分の答えを見直して、「いや、これじゃダメだ」「もっといい答えがあるはず」って考え直すってことですか?


Phrona:そういうことになりますね。従来のトランスフォーマーは一発で答えを出すだけだったけど、EBTは何度も吟味できる。まるで人間が草稿を書いては推敲するみたいに。


エネルギーという発想の転換


富良野:でも、なぜ「エネルギー」なんでしょう。物理学的な概念をAIに持ち込むのって、どういう意図があるんですかね。


Phrona:面白い視点ですよね。物理学では、システムが安定状態に向かうとき、エネルギーが最小化される傾向があります。EBTはこの原理を借りてきて、「良い予測」ほどエネルギーが低くなるように設計されているんです。


富良野:つまり、低エネルギー=良い答えってことですか?でも、そのエネルギー値って誰が決めるんですか?


Phrona:そこが重要なポイントで、人間が手動で設定するんじゃないんです。EBTは大量のデータから、「自然な組み合わせ」と「不自然な組み合わせ」のパターンを自動的に学習するんですよ。


富良野:どういうことでしょう?


Phrona:対比学習っていう手法を使うんです。たとえば「今日の天気は」という入力に対して、「晴れです」という自然な答えには低いエネルギーを、「冷蔵庫です」という不自然な答えには高いエネルギーを割り当てるように学習する。


富良野:なるほど、正例と負例から学ぶってことですね。でも、実際のデータだと、そんなに明らかな例ばかりじゃないでしょう?


Phrona:そうなんです。でも面白いのは、EBTは明示的な「これが正解」っていうラベルを必要としないんです。データ自体の構造から、何が自然で何が不自然かを学習する。まるで人間の子どもが、誰にも教わらずに「変な日本語」に違和感を覚えるようになるのと似てますね。


富良野:つまり、AIが「センス」みたいなものを獲得するってことですよね。


Phrona:まさに。そして、そのセンスを使って、時間をかけて答えを磨いていく。これまでのAIは「パターン認識の達人」だったけど、EBTは「思慮深い判断者」になろうとしているのかもしれません。しかも、そのセンスは人間が教えるんじゃなくて、データから自然に身につける。


従来のSystem 2思考の限界を超えて


富良野:それって、人間の直感の仕組みに近いのかもしれませんね。我々も「なんとなくおかしい」とか「これはしっくりくる」とか、論理的に説明できない感覚がありますし。でも、これまでAIで「じっくり考える」って言われてたSystem 2思考って、瞬間的なSystem 1思考と違って、数学とかコーディングとか、正解がはっきりしてる分野に限られてましたよね。EBTはそれを超えられるんですか?


Phrona:そこがEBTの画期的なところです。テキストだけじゃなくて、画像処理でも優秀な結果を出してるんですよ。画像のノイズ除去で、他の最先端モデルを上回って、しかもより効率的に処理できてる。


富良野:画像でもSystem 2思考って、どういう感じなんでしょう?


Phrona:想像してみてください。ぼやけた写真があったとして、従来のAIは「えいっ」と一発で補正する。でもEBTは「この部分はこう修正して、あの部分はああして...いや待て、全体のバランスを考えるとこっちの方がいいかな」って、段階的に改善していく感じです。


富良野:つまり、芸術家がスケッチから完成作品に仕上げていくプロセスに近い?


Phrona:そうですね。そして、これがテキストにも画像にも音声にも応用できるとしたら、本当に汎用的なAIの思考システムになるかもしれません。


富良野:特定のタスクに特化したAIじゃなくて、どんな問題にも「じっくり考えて」取り組める汎用AIへの道筋ってことですかね。


Phrona:可能性はありますね。従来のSystem 2思考は「論理的正しさ」しか扱えませんでしたが、EBTは「質的な良さ」を判断できる可能性を示しています。数学の正解から、デザインの美しさや、文章の自然さまで。


富良野:AIがとうとう人間の「センス」や「感性」の領域に踏み込んだってことでしょうか?


Phrona:そうかもしれません。計算から感性への大きな転換点なのかも。創作分野や、デザイン、音楽なんかでも「より美しい表現」「より調和の取れた配置」を模索できるようになるかもしれませんね。


性能向上の衝撃


富良野:具体的な性能はどうなんでしょう?論文の数字を見ると、かなりインパクトがありそうですが。


Phrona:数字がすごいですよね。学習効率が最大35%向上って、これ相当なブレイクスルーです。同じデータ量、同じ計算リソースで、従来のトランスフォーマーより35%も効率よく学習できる。


富良野:35%って、たとえば今まで100時間かかってた学習が65時間で済むってことですか?


Phrona:そういうことになりますね。そして推論時、つまり実際に問題を解くときのSystem 2思考では29%の性能向上。これも大きいです。


富良野:でも、時間をかけて考えるんだから、処理速度は遅くなりそうですが...


Phrona:それが意外で、画像のノイズ除去タスクでは、他のDiffusion Transformersより少ない計算量で良い結果を出してるんです。効率的に「考える」方法を身につけてるってことかもしれません。


富良野:つまり、がむしゃらに計算するんじゃなくて、スマートに思考してるってことですね。


Phrona:そうです。そして、もう一つ興味深いのは「汎化性能」の向上です。EBTは訓練時の性能が他のモデルと同じか、むしろ劣っていても、実際のタスクではより良い結果を出すことが多いんです。


富良野:テストでは点数が悪くても、実際の仕事では優秀みたいな?


Phrona:いい例えですね。暗記じゃなくて理解で学んでるから、新しい問題にも対応できる。過学習を避けて、本質的な理解を獲得してるのかもしれません。


エネルギー最適化の深い意味


富良野:改めて考えると、この「エネルギー最適化」って発想が従来のトランスフォーマーとは根本的に違うところですよね。


Phrona:そうなんです。普通のトランスフォーマーは「次の単語は何?」って直接予測するけど、EBTは「この入力とこの出力の組み合わせはどのくらい自然?」って互換性を評価する。


富良野:視点が全然違うんですね。部分的な予測じゃなくて、全体的な調和を見てる。


Phrona:まさに。まるで詩人が一つ一つの言葉を選ぶんじゃなくて、詩全体の響きや意味の流れを考えながら創作するみたいに。


富良野:それって、もしかすると人間の脳の働きにも近いのかもしれませんね。我々も「なんとなくしっくりくる」とか「違和感がある」とか、全体的な調和感で判断することが多いし。


Phrona:まさに。EBTは、AIに「センス」や「美的感覚」に近いものを与えようとしてるのかもしれません。正解を覚えるんじゃなくて、「良いもの」を見分ける感性を身につける。


富良野:でも、そうなると、AIの判断基準がさらにブラックボックス化しそうですね。「なぜその答えを選んだの?」って聞いても、「なんとなくエネルギーが低かったから」としか言えない。


Phrona:それは確かに課題ですね。でも、人間だって直感的判断の理由を明確に説明できないことが多いでしょう。「なぜこの人を好きになったの?」って聞かれても、理性的な答えは難しい。


認知科学への貢献


富良野:なんだか聞いていると、このEBTの研究って、AI技術だけじゃなくて、認知科学や心理学にも影響を与えそうな気がしますね。


Phrona:そうですね。System 1とSystem 2の二重プロセス理論って、カーネマンが提唱してから広く受け入れられてるけど、実際の脳内メカニズムはよく分かってなかった。EBTはそのメカニズムの一つの仮説を提示してるのかもしれません。


富良野:つまり、AIを作ることで、人間の思考プロセスの理解も深まるかもしれない。


Phrona:はい。たとえば、なぜ人間は重要な決断に時間をかけるのか、なぜ直感と理性的判断が違うことがあるのか、そういう疑問にEBTのアプローチがヒントを与えるかもしれません。


富良野:確かに。人間も無意識のうちに「エネルギー最適化」みたいなことをしてるのかもしれませんね。良い判断は「しっくりくる」し、悪い判断には「違和感」がある。


Phrona:そして、EBTが示してるのは、この種の「思慮深い判断」は特別な訓練なしに、大量のデータから自然に学習できるということです。これって、人間の子どもが言語を習得するプロセスにも似てますよね。


富良野:ああ、確かに。子どもは文法を明示的に教わる前から、「正しい文」と「変な文」を区別できるようになる。


Phrona:まさに。そして、EBTのような技術が進歩すれば、AIと人間の学習プロセスの共通点と違いがより明確になるかもしれません。


実用化への展望と課題


富良野:実際にこの技術が普及するには、どんな課題があるんでしょう?


Phrona:まず、計算コストの問題がありますね。時間をかけて考えるってことは、それだけリソースを使うわけで、リアルタイムでの応答が必要なアプリケーションでは工夫が必要でしょう。


富良野:チャットボットとかだと、ユーザーは即座の回答を期待してますからね。


Phrona:ただ、用途によっては「考える時間」が価値になることもあるでしょう。医療診断とか法律相談とか、正確性が重要で、少し待ってでも質の高い回答が欲しい場面では。


富良野:そうですね。「少々お待ちください、検討中です」って表示があって、その後により信頼性の高い回答がもらえるなら、むしろ安心できるかも。


Phrona:それに、技術が進歩すれば、「考える時間」の制御もできるようになるでしょう。簡単な質問はSystem 1で瞬時に、複雑な問題はSystem 2でじっくりと。


富良野:AIが状況を判断して、適切な思考モードを選択するってことですね。これまでのAIは人間が使い方を決めてたけど、AIが自分で判断するようになる。


Phrona:そうです。そして、もう一つの課題は「いつ考えるのをやめるか」ですね。人間も考えすぎて決められなくなることがあるでしょう?


富良野:分析麻痺ってやつですね。完璧な答えを求めすぎて、結局何も決められない。


Phrona:EBTでも、エネルギー最適化をいつまで続けるかの基準が重要になります。でも、論文を見る限り、このあたりの制御もうまくいってるようですね。


新しい人間とAIの関係


富良野:最終的に、EBTのような技術が普及したら、人間とAIの関係はどう変わると思いますか?


Phrona::これまでのAIは、どちらかというと「高性能な道具」でしたが、EBTは「思考パートナー」に近づいてるように感じます。人間とAIが一緒に問題について考える、みたいな。


富良野:確かに。AIが自分なりに悩んで、迷って、考え直すなら、もう単なる機械じゃないですよね。


Phrona:そうですね。そして、人間の役割も変わってくるかもしれません。AIが論理的な分析を担当して、人間はより創造的で感情的な領域に特化していく。


富良野:でも、それって少し寂しい気もしませんか?「考える」ことって、人間らしさの核心部分だったのに。


Phrona:うーん、でも私は違う見方もできると思うんです。AIが「考える」ようになることで、人間の思考の素晴らしさがより際立つかもしれません。


富良野:どういう意味ですか?


Phrona:たとえば、電卓が普及しても、数学者の価値は下がりませんでした。むしろ、計算から解放されて、より高次の数学的思考に集中できるようになった。EBTも同じで、基本的な推論をAIに任せることで、人間はより創造的で洞察に満ちた思考に専念できるかもしれません。


富良野:なるほど。人間とAIの共進化ってことですね。お互いの得意分野を活かしながら、一緒に成長していく。


Phrona:そうですね。そして、EBTのような技術は、その共進化の新しい段階の始まりなのかもしれません。AIが本当に「考える」ようになったとき、人間もより深く、より豊かに考えることができるようになるかもしれません。



ポイント整理


  • Energy-Based Transformers(EBT)は推論段階で自己改善する革新的AIで、従来のトランスフォーマーとは根本的に異なるアプローチを採用

  • 「エネルギー」は物理的電力ではなく数学的概念で、入力と出力の互換性を表すスコアとして機能

  • 対比学習により自然な組み合わせを自動学習し、明示的な正解データなしに「良い判断」の感性を獲得

  • 学習効率35%向上、推論時System 2思考で29%性能改善を実現し、計算効率も従来のDiffusion Transformersを上回る

  • 従来のSystem 2思考の限界を突破し、数学・論理分野から画像処理まで「質的な良さ」を判断可能

  • テキストと画像処理の両分野で優秀な結果を示し、モダリティを超えた汎用的なSystem 2思考を実現

  • 汎化性能の向上により、訓練時の性能が同等でも実タスクでより良い結果を出し、過学習を効果的に回避

  • 物理学のエネルギー最適化原理をAI判断に応用し、全体的な調和感に基づく判断システムを構築

  • 認知科学への貢献として、人間のSystem 1/System 2思考メカニズムに新たな仮説を提示

  • 人間とAIの新しい協力関係の可能性を示し、「思考パートナー」としてのAIの役割を提案



キーワード解説


【トランスフォーマー】

2017年に登場したAIアーキテクチャで、注意機構(アテンション)を核とした深層学習モデル。ChatGPTやGPT-4などの大規模言語モデルの基盤技術


【Energy-Based Transformers(EBT)】

エネルギー関数で入力と出力の互換性を評価し、最適化により答えを改善するトランスフォーマーアーキテクチャ


【System 1思考】

カーネマンが提唱した、高速で自動的、直感的な思考プロセス。「2+2=4」のように瞬時に答えが浮かぶ認知システム


【System 2思考】

カーネマンが提唱した、意図的で時間をかけた熟考的思考プロセス。複雑な計算や重要な判断で使われる


【ダニエル・カーネマン】

ノーベル経済学賞受賞の心理学者。著書「ファスト&スロー」で二重プロセス理論を一般に広めた


【エネルギー最小化】

物理学の原理を応用し、最も安定した(エネルギー最小の)状態を目指す最適化プロセス


【対比学習】

正例(自然な組み合わせ)と負例(不自然な組み合わせ)を比較することで学習する手法


【勾配降下法】

エネルギー関数の最小値を効率的に見つけるための数学的最適化アルゴリズム


【互換性評価】

入力データと候補出力の組み合わせがどれだけ自然で適切かを数値で判定する仕組み


【汎化性能】

学習データにない新しいデータに対してもうまく動作する、AIの本質的理解能力


【モダリティ横断】

テキスト、画像、音声など異なる種類のデータを統一的に処理する汎用性


【推論時最適化】

学習済みモデルが実際に予測を行う際に、答えを段階的に改善する仕組み



本稿は近日中にnoteにも掲載予定です。
ご関心を持っていただけましたら、note上でご感想などお聞かせいただけると幸いです。
bottom of page