「存在しない」ということをLLMが認識できない衝撃の理由──最先端モデルの意外すぎる盲点
- Seo Seungchul
- 6月25日
- 読了時間: 8分
更新日:7月1日

シリーズ: 論文渉猟
◆今回の論文:Harvey Yiyun Fu et al. "AbsenceBench: Language Models Can't Tell What's Missing" (arXiv, 2025年6月13日)
概要: 大規模言語モデルの欠損情報検出能力を、数列、詩、GitHubプルリクエストの3つの領域で評価した研究
現代の大規模言語モデル(LLM)は、膨大な文章の中から一つの針を見つけるような芸当ができるようになりました。しかし、最新の研究が示したのは、意外にも単純に思える問題で彼らが苦戦するという事実です。それは「何が削除されたかを見つける」という課題。
今回紹介するAbsenceBenchという新しい評価基準は、言語モデルが「存在するもの」を見つけるのは得意でも、「存在しないもの」を特定するのは驚くほど苦手だということを明らかにしました。この発見は、私たちがAIの能力を理解する上で重要な示唆を与えてくれます。なぜなら、人間の認知においても「ないもの」を認識することは、「あるもの」を認識することと全く異なる種類の知的作業だからです。
この記事では、なぜ最先端のAIが「空白」を読み取れないのか、そしてこの限界が私たちに何を教えてくれるのかを、二人の対話を通じて探っていきます。
「見つける」と「見つからない」の違い
富良野: この研究、面白いですよね。いわゆるNeedle in a Haystackテスト、干し草の山から針を見つけるようなテストでは、最新のAIは驚異的な成績を出すのに、逆に「何が抜けているか」を見つけるのは苦手だという。
Phrona: そうそう、なんだか人間的な感じがしませんか?私たちも、目の前にあるものを見つけるのと、「そこにないもの」に気づくのとでは、全然違う種類の注意の向け方をしますよね。
富良野: まさにそこなんです。研究チームは、数字の列、詩、そしてプログラムのコード変更という3つの分野でテストしたんですが、Claude-3.7-Sonnetでさえ69.6%のF1スコアしか出せなかった。これ、平均的な文脈長が5000トークン程度という、そんなに長くない文章でのことですよ。
Phrona: 5000トークンって、原稿用紙で言うと10枚程度でしょうか。人間なら「あれ、この段落、何か変じゃない?」って気づきそうな分量ですね。でも機械にとっては、そういう「違和感」を感じ取るのが難しいのかもしれません。
富良野: その通りです。そして興味深いのは、数字の列では比較的うまくいくのに、詩やプログラムのコードになると途端に成績が悪くなることなんです。
注意機構の構造的限界
Phrona: でも、なぜそんなことが起こるんでしょう?技術的な理由があるんですか?
富良野: 研究者たちは、これがTransformerの注意機構そのものの限界だと分析しています。アテンション機構というのは、簡単に言えば「どの単語とどの単語が関連しているか」を計算する仕組みなんです。
Phrona: ああ、なるほど。でも「ない」ものには、そもそも注目する対象がないということですね。
富良野: その通りです。注意機構は、実際に存在するキー、つまり具体的な単語や文章に対してしか注意を向けることができません。「空白」や「削除された部分」には、注意を向ける先がそもそも存在しないんです。
Phrona: それって、なんだか哲学的な問題みたいですね。「無」をどうやって認識するかという。私たちが「ここに何かがない」と気づくときって、何かの期待やパターンがあって、それとの違いを感じ取っているのかもしれません。
富良野: まさにそうなんです。人間の場合は、文脈から「ここには何かがあるべきだ」という期待を持って、その期待が裏切られることで欠損に気づく。でもAIは、そういう期待形成の仕組みが根本的に違うのかもしれません。
近くて遠い能力の差
Phrona: でも不思議ですよね。同じようなタスクでも、こんなに結果が違うなんて。
富良野: 研究者たちは、これを「ギザギザした境界線」と呼んでいるんです。AIが超人的な能力を発揮する領域と、予想外に苦戦する領域が、すぐ隣り合わせに存在している。
Phrona: ギザギザした境界線...。確かに、AIの能力って、私たちが想像するような滑らかな発達をしているわけじゃないんですね。あるところでは天才的で、すぐ隣では初歩的なミスをする。
富良野: そうです。例えば、推論機能を持つAIは少し成績が良くなるんですが、そのためにより多くの推論トークンを消費する。時には元の文書よりも長い思考過程が必要になることもあるそうです。
Phrona: それって、私たちが「ない」ものを見つけるときに、すごく意識的に、時間をかけて考えないといけないのと似ているかもしれませんね。直感的にパッと分かるものじゃない。
実用的な含意を考える
富良野: この発見は、AIを実際に使う場面でも重要な示唆があると思うんです。AIに文書の校正や要約を任せるとき、「足りない情報」を指摘してもらうのは期待しない方がいいかもしれません。
Phrona: ああ、それは確かに。「この文章、何か重要な情報が抜けていませんか?」って聞いても、AIはうまく答えられないかもしれない。でも逆に言えば、人間がその部分で価値を発揮できる領域が残っているということでもありますね。
富良野: その通りです。AIの能力が急速に発展する中で、人間独自の認知能力がどこにあるのかを理解することは、協働関係を築く上で重要だと思います。
Phrona: でも、この研究を見ていると、なんだかAIの「個性」みたいなものを感じませんか?完璧な情報処理マシンというより、独特な認知の癖を持った存在として。
富良野: 面白い視点ですね。確かに、AIにも「得意な注意の向け方」と「苦手な注意の向け方」があるということかもしれません。それを理解した上で、どういう役割分担をするかを考える必要がありそうです。
未来への示唆
Phrona: この問題って、将来的には解決される可能性があるんでしょうか?
富良野: 技術的には、プレースホルダーという仕組みで改善できる可能性があるそうです。削除された部分に「ここに何かがありました」という印をつけておくような方法ですね。
Phrona: でも、それって根本的な解決になるんでしょうか?現実世界では、そんな親切な印がついているとは限りませんよね。
富良野: そこが課題ですね。人間が何かの欠損に気づくときって、そういう明示的な手がかりがなくても、文脈の流れや期待から判断している。AIがそういう推論をできるようになるには、アーキテクチャの根本的な変革が必要かもしれません。
Phrona: もしかすると、「ない」ことを認識するって、単なる情報処理を超えた、もっと深い理解が必要なのかもしれませんね。何があるべきかという「世界モデル」みたいなものを持っていないと難しそう。
富良野: その通りだと思います。この研究は、AIの技術的限界を明らかにしただけでなく、認知というもの自体の複雑さについても教えてくれているのかもしれません。
「ない」を認識する人間の特異性
Phrona: そういえば、この話を聞いていて思い出したんですが、「ない」ということを認識するって、実は人間にとってもすごく特殊な能力なんですよね。
富良野: と言いますと?
Phrona: 心理学者のクラインは、赤ちゃんには「ない」という概念がないって指摘したんです。「ない」を認識するためには、目の前にないものでも存在し続けているという感覚、つまり「非在の現前」という高度な認知能力が必要で。
富良野: ああ、なるほど。それで言うと、動物にも基本的には「ない」という概念は成立していないとされていますよね。
Phrona: そうなんです。私たちは「ない」ということに慣れすぎて、それが普遍的に成立すると思い込んでいるけれど、実際には人間が後天的に習得する特異な認知の型なんです。
富良野: それで考えると、LLMが「ない」を認識できないのは、ある意味で自然な状態なのかもしれませんね。むしろ人間の方が特殊だと。
Phrona: そうだと思います。LLMは存在するトークンにしか注意を向けられないというのは、動物的な認知に近いのかもしれません。「ここにあるもの」には反応できるけれど、「ここにないもの」は認知の対象にならない。
富良野: つまり、AbsenceBenchでLLMが苦戦するのは欠陥というより、むしろ基本的な認知のあり方の違いということになりますね。人間が「ない」を認識できるようになったのは、進化的に見ても相当新しい能力なのかもしれません。
ポイント整理
AbsenceBenchは、言語モデルが削除された情報を特定する能力を測定する新しい評価基準
最先端モデルでも、5000トークン程度の文脈でF1スコア約70%という低い成績を記録
数字の列では比較的良好な性能を示すが、詩やプログラムコードでは大幅に性能が低下
この問題は、Transformerアーキテクチャのアテンション機構が「存在しない」ものに注意を向けられないという構造的限界に起因
AIが超人的能力を示す領域(NIAH)と予想外に苦戦する領域(AbsenceBench)が隣接している「ギザギザした境界線」の例
推論機能付きAIは性能が向上するが、元文書よりも長い推論過程が必要になることが多い
プレースホルダーを使った改善方法が提案されているが、根本的解決には至っていない
キーワード解説
【AbsenceBench】
言語モデルの欠損情報検出能力を評価する新しいベンチマーク
【NIAH(Needle in a Haystack)】
長い文脈から特定の情報を見つけるテストの通称
【F1スコア】
精度と再現率の調和平均で、モデルの性能を総合的に評価する指標
【注意機構(アテンション機構)】
Transformerの核心技術で、入力の各部分間の関連性を計算する仕組み
【Transformerアーキテクチャ】
現代の大規模言語モデルの基盤となる深層学習モデル構造
【ギザギザした境界線】
AIの能力分布が均一でなく、隣接する領域で極端な性能差が生じる現象
【推論トークン】
AI が内部的な思考過程で消費する計算資源の単位
【プレースホルダー】
削除された部分を明示的に示すための代替マーカー