ChatGPTが「言語」を研究してきた人たちを震撼させた日──自然言語処理という学問に何が起きたのか

Seo Seungchul
3月15日
読了時間: 12分

シリーズ: 知新察来

◆今回のピックアップ記事：John Pavlus, "When ChatGPT Broke an Entire Field: An Oral History" (Quanta Magazine, 2025年4月30日）

概要：自然言語処理（NLP）研究者19人へのインタビューを通じて、Transformerの登場からChatGPTのリリースまで、この分野がどのような変容を経験してきたかを記録したオーラルヒストリー。

人間の言葉をコンピュータに理解させようとする学問があります。「自然言語処理（NLP）」と呼ばれ、SiriやAlexaの頭脳を作り、翻訳アプリの精度を高め、SNSのフィード表示を最適化してきた分野です。ところが2022年11月、この分野を長年牽引してきた研究者たちが、突然「自分たちの仕事は何だったのか」と問い直す事態に追い込まれました。ChatGPTの登場です。

博士課程の学生は研究テーマを根本から見直し、教授たちは「これが最後のNLP学会になるかもしれない」と囁き合い、あるベテラン研究者は「キャリアの存在論的危機」を経験したと語っています。Quanta Magazineが19人のNLP研究者にインタビューした記録は、ひとつの学問分野がテクノロジーの波に呑まれていく生々しい証言です。

今回は富良野とPhronaが、この「オーラルヒストリー」を読み解きながら、技術革新が専門家コミュニティに何をもたらすのか、そして「言語を理解する」とはどういうことなのかを考えます。

「予兆はあった、でも誰も信じなかった」

富良野：この記事、読み応えがあったね。2017年から2025年までの約8年間を、現場にいた人たちの声で追っていく構成で。

Phrona：「オーラルヒストリー」って形式がいいですよね。論文じゃなくて、人の言葉で語られているから、感情の温度がそのまま伝わってくる。

富良野：まず面白いなと思ったのは、2017年にTransformerの論文が出たときの反応。Googleの研究者が学会で発表したとき、会場の反応は「これ、ただのハックでしょ」だったらしい。

Phrona：ハック、つまり場当たり的な技術的工夫ってことですね。言語の本質を捉えた設計じゃないと。

富良野：そう。レイ・ムーニーという重鎮の研究者が「概念的には正しいモデルじゃない」と言っていて、でもその後に「ただ、その概念的に間違ったモデルを大量のデータで訓練すると驚くべきことができるとは気づかなかった」と続けている。

Phrona：「間違っているはずのものが、うまくいってしまった」という困惑が滲んでますね。

富良野：これ、科学の歴史でよくあるパターンかもしれない。理論的にエレガントじゃないものが、実用上は圧倒的に機能してしまう。

Phrona：プトレマイオスの天動説みたいな。周転円をどんどん足していって、計算上はかなり正確に惑星の位置を予測できたけど、本質的には「違う」という。

富良野：ただ、今回の場合はその「違う」はずのものが、どんどん性能を上げ続けてしまった。

「タコ」は言葉を理解できるか

Phrona：記事の中で印象的だったのが「タコテスト」の話です。エミリー・ベンダーという言語学者が書いた論文で。

富良野：超知的なタコが海底で人間の通信を傍受して、そのパターンを完璧に真似できるようになったとしても、陸上の生活を「理解」したことにはならない、という思考実験だよね。

Phrona：統計的なパターンを学習することと、意味を理解することは違う、という主張。これ、直感的にはすごく納得できるんです。

富良野：でも、この論文に対してジュリアン・マイケルという研究者がブログで反論を書いていて、本人いわく「笑顔で徹底的に批判した」と。

Phrona：笑顔で徹底的に、というのが怖いですね。

富良野：学術的な礼儀を保ちながら根本から否定するという。この「理解戦争」と呼ばれた論争、2020年頃に激しくなったらしい。

Phrona：でも、この論争って実は解決してないですよね。「理解とは何か」という問い自体が。

富良野：そこなんだよね。ChatGPTが出てきて、多くの研究者が「これは理解じゃない、ただの模倣だ」と言い続けているんだけど、一般ユーザーからすると「理解してるように見える」し、実際に役立つ。

Phrona：「本当の理解」と「機能的な等価物」の区別が、実践的な場面では意味を持たなくなってしまう。

富良野：哲学的ゾンビ問題に近いのかもしれない。意識がないけど意識があるかのように振る舞う存在と、本当に意識がある存在を、外から区別できるのか。

GPT-3という「秘密」

Phrona：2020年のGPT-3リリースのところ、研究者たちの反応がすごくリアルでした。

富良野：クリストファー・ポッツという言語学者の証言が印象的だった。「論理問題を出せば失敗するはずだ、パーティートリックだと暴いてやる」と思って試したら、全然そうならなかったと。

Phrona：「パーティートリック以上のものだと認めざるを得なかった」と。

富良野：クリストファー・キャリソン＝バーチという研究者は、博士課程の学生が5年かけてやった研究を、GPT-3で1ヶ月で再現できそうだと気づいて「キャリアの存在論的危機」を経験したと言っている。

Phrona：存在論的危機、という言葉の重さ。自分の専門性の価値が突然揺らぐ経験ですよね。

富良野：リアム・デュガンという当時の博士課程学生は「僕たちは秘密を持っているようだった。誰かをラップトップの前に連れてきて見せるだけで、みんな驚愕していた」と。

Phrona：でも、その「秘密」はすぐにOpenAIの閉じた製品になって、学術研究者は外から眺めるしかなくなった。

富良野：そう、ここで分断が生まれた。「APIサイエンス」という皮肉な言葉が出てきて、「製品に対して科学をやるのか？再現可能性はどうなる？」という批判と、「フロンティアにいなければ意味がない」という立場で。

「確率論的オウム」と内戦

Phrona：ベンダーさんが共著で書いた「確率論的オウム」の論文、これが分野の内戦を引き起こしたんですよね。

富良野：確率論的オウム（Stochastic Parrot）というのは、統計的なパターンを模倣して言葉を吐き出すだけの存在、という意味のメタファーで。大規模言語モデルの危険性を警告する論文だった。

Phrona：カリカ・バリというマイクロソフトの研究者が言っていることが興味深いです。「この論文が出たことは良かった。でも、NLPコミュニティ全体が賛成派と反対派に分かれてしまったのは好ましくなかった」と。

富良野：2022年夏に分野全体で「30の論争的な立場」についてアンケートを取ったらしい。「言語構造は必要か」「スケーリングで重要な問題は解決するか」「AIは近いうちに革命的な社会変革をもたらすか」みたいな質問で。

Phrona：アンケートを取らないと立場の分布がわからないほど、分断が深刻だったということですね。

富良野：リアム・デュガンは「当時、僕はスケーリングで汎用知能に到達できると信じている人たちを頭がおかしいと思ってた」と言っていて、でも「そしてChatGPTが出た」と続けている。

Phrona：その「頭がおかしい」と思っていた側の予測が、ある意味で当たってしまった。

隕石の衝突

富良野：2022年11月30日のChatGPTリリースを、記事は「キクスルーブ」と呼んでいる。恐竜を絶滅させた隕石の衝突地点の名前。

Phrona：詩的だけど、当事者にとっては本当にそれくらいの衝撃だったんでしょうね。

富良野：イズ・ベルタギーという研究者の言葉が端的で、「一日で、研究者の大きな割合が取り組んでいた問題が消えた」と。

Phrona：「消えた」という表現。解決されたんじゃなくて、問題として意味がなくなった。

富良野：同じ時期に開かれたEMNLPという学会で、「これが最後のNLP学会になるかもしれない」と誰かが言ったらしい。

Phrona：冗談半分だったかもしれないけど、その言葉が出てくること自体が異常事態ですよね。

富良野：ナズニーン・ラジャニという研究者は、学会で基調講演をした数日後に、Hugging Faceから「事前学習か事後学習、どちらかを選べ、そうでなければ…」と言われたと。

Phrona：研究の自由があった組織が、突然「基盤モデルを作るか、ChatGPTみたいに調整するか、どっちかに専念しろ」と方針転換した。

教室で起きたこと

Phrona：クリスティアーネ・フェルバウムという言語学の教授のエピソード、ちょっとゾッとしました。

富良野：学期の最初に学生が論文を持ってきて「あなたの研究について質問があります」と言うから喜んで見ていたら、実はChatGPTが「クリスティアーネ・フェルバウムのスタイルで」書いた偽論文だったと。

Phrona：そして教授は10分間それを自分の論文だと思って読んでいた。

富良野：「教室に入って思った、私はこれから何をすればいいのか」と。

Phrona：自分のスタイルが模倣可能になった瞬間を、目の前で突きつけられたわけですね。

富良野：博士課程の学生たちは「サポートグループ」を作ったらしい。精神的なケアのために。

Phrona：学術研究がそこまで心理的なダメージを与える状況って、そうそうないですよね。

富良野：「誰も辞めなかった。でも静かな退職はあった」とリアム・デュガンは言っている。足を引きずるようになったり、シニカルになったり。

「言語は終わった」のか？

Phrona：でも、アンナ・ロジャースという研究者は「心配していない」と言っていますよね。「落ち込む理由があるのは、言語が解決されたと思う場合だけ。私はそうは思わない」と。

富良野：ここが面白いところで、NLPが「壊れた」と言う人と、「まだ何も解決してない」と言う人が同じ分野にいる。

Phrona：同じ現象を見ていても、解釈が正反対になりうる。

富良野：クリストファー・ポッツは「言語学とNLPにとって信じられないほどの瞬間のはずだ」と言っていて。賭け金が高くなった、世界中のお金がこの分野に流れ込んでいる、だからこそ議論が白熱するのは当然だと。

Phrona：危機と好機が同時に来ている感覚でしょうか。

富良野：「多くの人が達成すれば、議論が激しくなることも受け入れなければならない。他にどうありえる？」という言葉が記事の最後の方にあって、これがこの分野の現状を象徴してる気がする。

パラダイムシフトだったのか

Phrona：記事の最後で「これはパラダイムシフトだったのか？」と研究者たちに聞いていますね。

富良野：答えがバラバラで面白い。タル・リンゼンは「指示を入力するだけでモデルがそれに従う形式で何でもできるなんて、10年前は誰も予想しなかった」と言っていて、これはシフトだと。

Phrona：一方でアンナ・ロジャースは言語学者として「そうは思わない」と。2013年の単語埋め込みの時代から、大量のテキストデータから何かを学んで別のタスクに活かすという転移学習の原理は変わっていないと。

富良野：建築が変わっただけで、基本的な考え方は継続しているという見方。

Phrona：エリー・パヴリックの指摘も興味深かったです。「メディアの関与が違いを生んだ」と。成功が「NLP以外で知られること」になり、論文のタイトルが教授ではなくジャーナリストやシリコンバレー向けに書かれるようになったと。

富良野：学術的なインセンティブ構造そのものが変わってしまった。

Phrona：それって、科学の質にも影響しますよね。

富良野：ヴコシ・マリヴァテは参入障壁が「下がった面と上がった面の両方がある」と言っていて。モデルの内部を理解しなくても研究ができるようになった一方で、実際にアーキテクチャを触ろうとすると膨大な計算資源が必要になったと。

Phrona：最後にクリストファー・ポッツが言っている言葉、ちょっと予言的ですよね。「2030年には、2029年に起きたことに比べればこれは何でもなかったと振り返るかもしれない」と。今起きていることがピークだとは限らないという。

富良野：この記事全体を通して感じるのは、専門家であることの複雑さかな。長年積み上げてきた知識と方法論が、突然「それ、もう要らないかも」と言われる経験。

Phrona：でも同時に、その専門性があるからこそ「何が起きているか」を言語化できる。一般の人には見えない変化の輪郭を描ける。

富良野：「理解とは何か」という問いも、結局まだ開いたままだよね。タコは理解しているのか、していないのか。

Phrona：もしかすると、その問い自体が変わっていくのかもしれませんね。「理解」の定義が、技術の進展によって書き換えられていく可能性。

ポイント整理

Transformerの登場（2017年）
- 「Attention Is All You Need」論文で新しいニューラルネットワーク構造が提案されたが、当初は「言語の本質を捉えていないハック」と見なされた。しかしBERT（2018年）によって性能が実証され、分野を席巻した。
「理解戦争」の勃発（2020年）
- 言語モデルが統計パターンを模倣しているだけなのか、本当に「意味」を理解しているのかを巡る論争が激化。「タコテスト」や「確率論的オウム」といった概念が提起され、研究者コミュニティが二分した。
GPT-3の衝撃（2020年6月）
- 従来の100倍以上の規模を持つモデルがリリースされ、博士課程5年分の研究が1ヶ月で再現可能になるなど、研究者に「存在論的危機」をもたらした。
ChatGPTという「隕石」（2022年11月）
- 一般公開されたチャットボットにより、NLP研究の多くの問題が「解決」ではなく「無意味化」された。学会で「最後のNLP学会かもしれない」という声が上がった。
分野の変容
- 多くの研究者がAI全般へとシフトし、NLPは「LLM学（LLM-ology）」に変化したという見方がある一方、「言語の問題は何も解決していない」と主張する研究者もいる。
パラダイムシフトの評価
- 研究者間で意見が分かれる。インターフェースの革命的変化を強調する立場と、転移学習という基本原理の継続性を強調する立場が併存している。

キーワード解説

【自然言語処理（NLP）】

人間の言語をコンピュータで処理・理解させる技術分野。翻訳、音声認識、テキスト分析など幅広い応用を持つ。

【Transformer】

2017年に提案されたニューラルネットワーク構造。「注意機構（Attention）」を核とし、GPTやBERTなど現代の大規模言語モデルの基盤となっている。

【BERT】

Googleが2018年に公開したTransformerベースのモデル。双方向の文脈理解が可能で、多くのNLPタスクで当時の最高性能を達成した。

【大規模言語モデル（LLM）】

膨大なテキストデータで訓練された言語モデル。GPT-3、GPT-4、Claudeなどが代表例。

【確率論的オウム（Stochastic Parrot）】

統計パターンに基づいて言葉を生成するだけで、真の理解はないとするLLM批判の比喩表現。

【スケーリング則】

モデルサイズ、データ量、計算量を増やすと性能が向上するという経験則。「スケールがすべてを解決する」という立場の根拠となった。

【ベンチマーク】

モデルの性能を測定・比較するための標準化されたテスト。NLPでは質問応答、翻訳、文章理解などの課題で構成される。

【転移学習】

ある課題で学習した知識を別の課題に活用する手法。大規模テキストで事前学習し、特定タスクに微調整するアプローチが一般的。

【APIサイエンス】

公開されていないモデルをAPI経由で研究する手法への批判的呼称。再現可能性や科学的厳密性への懸念を表す。学的概念。Wikipediaの知識がAIに吸い上げられる状況に適用される比喩