答えに飲み込まれない力――測れる思考と、測れない思考

Seo Seungchul
1 日前
読了時間: 9分

シリーズ: 論文渉猟

◆今回の論文：Philip C. Abrami et al., "Strategies for Teaching Students to Think Critically: A Meta-Analysis" （Review of Educational Research, 2015年6月）

概要：批判的思考の指導は効果があるのか、どんな指導法が効くのかを、341の効果量を統合して検証した大規模メタ分析。指導には小さめだが有意な効果があり、対話・真正な問題・メンタリングが特に有効とされる。分析対象が標準化テストで測れる批判的思考に限られることを、論文は自ら明示している。

「考える力を伸ばします」。教育を語る言葉のなかで、これほど頻繁に唱えられ、これほど中身を問われずに済んでいる約束も少ない。

本当に、伸ばせるのか。伸ばせるとして、どれくらい。何をどうすれば。

この素朴な問いに、信念ではなく数字で答えようとした研究がある。三百を超える効果量を統合したメタ分析だ。結論は、拍子抜けするほど控えめだった——効く、ただし小さく。そして論文は、自分が測れたものの範囲を、自分で律してみせた。その誠実さの先に、思いがけない話が待っている。

クリティカルシンキング教育の効果測定

クリティカルシンキングは教えられるか。この問いは、たいてい信念の表明で終わる。教えられるに決まっている、いや才能だ、と。

エイブラミ(Philip C. Abrami)らが二〇一五年に公表したメタ分析は、そこに数字を持ち込んだ。標準化テストで測られる一般的な批判的思考について、341の効果量を統合し、平均g+=0.30(p<.001)を得る。有意ではある。だが論文はこれを「中程度」ではなく「小さい」と格付けする。さらに、教科内容に結びついた批判的思考は中程度の効果に達する一方、好奇心や粘り強さといった態度の側面はg+=0.23と再び小さい値に沈む。ひとくちに批判的思考といっても、測る対象によって効きやすさが大きく異なる、という事実がまず置かれる。

注目すべきは、効果の異様な安定である。厳密な無作為化実験(g+ 0.32)と準実験(0.29)の差は有意でなく(p=.58)、小学生から成人まで、理系から医療まで、効果量はおおむね0.2から0.3の帯に収まる。介入が数時間でも一学期でも、大きくは変わらない。教育効果がこれほど文脈に左右されずに現れること自体、ひとつの発見といえよう。

魔法のレシピはない、と論文は書く。これは謙遜ではない。むしろ予防線だ。「考える力が劇的に伸びる」と謳う商品をひとつ残らず疑え、という静かな警告として、私はこの一文を読む。

効くのは、三つの場面

では、その小さいが確かな効果は、どこから来るのか。

論文の分析で繰り返し顔を出す要素は三つある。対話、真正な問題、そしてメンタリングである。対話——質問し、討論し、ソクラテス式に問い返す営み——と、正解の定まらない真正な課題が用いられた群では、効果量が有意に高い。メンタリングはそれ自体では差がはっきりしないが、この二つに加わると効きを底上げする。実際、三つが揃った群はg+=0.57に達し、メンタリングを欠いた群の0.32を有意に上回る。触媒、と呼ぶのがふさわしい。

なぜ対話なのか。デューイ(John Dewey)の「心理化された知識」を思い起こせばよい。問い、答え、問い直しの往復のなかで、人は自らの推論を一度外部化し、他者の視点でそれを評価しなおす。頭のなかにあるうちは、推論はつながっているように見える。声に出した瞬間、つながっていない場所が露わになる。この外化と再評価の運動こそが、批判的思考を駆動する。

きれいすぎる定義

ところで、ここまで「クリティカルシンキング」と呼んできたものは、いったい何を指しているのか。測れる、と言うからには、定義がある。

標準的な定義は、アメリカ心理学会の専門家会議がまとめ、ファシオーネ(Peter Facione)が報告した「目的を持った自己調整的判断」に由来する。解釈・分析・評価・推論・説明・自己調整の複合。きれいな定義だ。きれいすぎる、と感じる者もいる。

興味深いことに、論文自身がその違和感を拾い上げ、定義への批判を丁寧に紹介している。セイヤー=ベーコン(Barbara Thayer-Bacon)は、合理性のみを特権化する定義を退け、直観・感情・想像力・社会的実践を含む、複数の視点が織り合わされる営みとして批判的思考を捉え直す(布を持ち寄って一枚に縫い上げる共同作業、キルティング・ビーの比喩は、ここに由来する)。ビースタ(Gert Biesta)はさらに踏み込み、この定義を「批判的独断主義」と呼ぶ。批判の基準それ自体を自明とする限り、デリダ(Jacques Derrida)が脱構築の名で示したような、不可視化されたものを暴く批判には届かない、というのである。マーシャル(James Marshall)は、フーコー(Michel Foucault)の「自己への配慮」を引きつつ、中立を装う定義からは社会批判の力が抜け落ちると指摘する。

論争はもう一層ある。批判的思考は領域を超えて転移する一般スキルなのか(エニス、シーゲル)、それとも常に何かについての思考であり、領域知識から切り離せないのか(マクペック)。いずれも決着していない。論文は、実証研究の多くが前者の枠組みで測定している、という事実を理由に、その立場を採るにとどめる。

測定が逃すもの

これだけの批判を抱えながら、なぜメタ分析は「測れる批判性」に絞ったのか。

理由は単純である。測れないものは、統合できない。標準化テストに載るものだけが、数百の研究をまたいで足し合わせられる。解釈する、推論する、反論を扱う——これらは測れる。だが、自分の価値観を疑う、社会の前提を問い直す、権力の構造を見抜く。批判の論者たちが「本丸」と呼ぶ広義の批判性は、テストの枠には収まらない。

つまり、効くと分かったクリティカルシンキングと、いちばん大事かもしれない批判性とのあいだには、断層がある。本稿の見立てでは、この論文の最大の美点は、効果を示したことではない。自分が測れたものの範囲を、自分で限定してみせたことだ。断層を、埋めたふりをせずに残した。決着のつかない問いを、決着がつかないまま、最後まで抱えて終わる。その姿勢を、私はむしろ信用する。

題外閑話——だとすれば、これはAIと相性がいい

ここから先は、論文の本筋からは外れる。余談だ。ただし、余談のほうが本筋かもしれない、という類の余談である。

効く三条件——対話、真正な問題、フィードバック——を並べて、あることに気づく。どれも、いまの生成AIが得意とする振る舞いだ。問い返すこと。正解の定まらないケースを作ること。推論にコメントを返すこと。人間の教師が学習者全員に細かく問い返すのは難しいが、AIなら一人ひとりに何度でも問いを返せる。論文が「効く」と特定した条件を、安く、大量に再現できる。

ところが、AIは問い返すことも得意だが、それ以上に、答えることが得意である。要約し、整理し、反論を作り、結論まで書き上げてしまう。すると何が起きるか。学習者が自分の推論を外に出し、その穴を自分で見つける——効果の源泉だったあの労働を、AIが先回りして肩代わりしてしまう。思考の外化は、いとも簡単に思考の外注へと反転する。

だとすれば、逆説的な結論が出てくる。AIを考える道具にする条件は、その出力を増やすことではなく、あえて控えることの側にある。すぐには答えさせない。問い、揺さぶり、反論させ、しかし結論は学習者自身に書かせる。道具を、わざと不便にする。肩代わりしてくれるほどありがたいはずの道具を、肩代わりさせないために設計しなおす。考える道具だけは、効率という物差しが裏返る。

答えが安くなった後で

この逆説は、ひとつの古い直観を裏側から照らしている。

人間の思考は、抵抗のなかでしか鍛えられない。簡単に答えが出ないこと。前提が揺らぐこと。反論にさらされること。確信が下がること。それでもなお、考え直して言葉にすること。教育がこれまで「考える力」と呼んできたものの正体は、案外、この負荷に耐える力だったのかもしれない。

そして、ここで問いはふたたび、論文が手放した断層へと戻ってくる。答えを出すこと自体が、これほど安くなった。だとすれば、人間の側に残しておくべき営みとは何か。問いを立てること。前提を疑うこと。分からないものを、分からないまま抱えていられること。他者の視点を引き受けること。もっともらしい言葉に、飲み込まれないこと——それは、論文が「測れない」と言って手放した、あの広義の批判性の側ではないか。

エイブラミらは、測れるものを誠実に測った。だからこそ、測れないものの輪郭が、かえって際立った。AIが答えを安くした世界で、教育がほんとうに守るべきなのは、答えを出す力ではなく、答えに飲み込まれない力なのかもしれない。

——とはいえ、これはもう、一篇のメタ分析が答えられる問いではない。論文はドアを開けた。その先は、私たちが考えるしかない。

ポイント整理

効果はあるが、小さい
- 標準化テストで測る一般的な批判的思考の平均効果量はg+=0.30で、有意だが「小さい」に分類される。「考える力が劇的に伸びる」という期待は、まず退けられる。
効果は文脈にほとんど左右されない
- 研究デザイン、教育段階、教科、介入期間を問わず、効果量はおおむね0.2〜0.3に収まる。批判的思考は、特定の年齢や教科に閉じた能力ではない。
三つの条件と、触媒としてのメンタリング
- 対話と真正な問題が効果を高める。メンタリングはそれ単独ではなく、二つに「加わる」ことで効きを底上げし、三つが揃った群はg+=0.57に達する。
定義そのものが係争中
- 「目的を持った自己調整的判断」とするAPA的定義に対し、合理性偏重・基準の絶対視・社会批判の欠落といった批判が存在する。何を批判的思考と呼ぶかは、いまだ決着していない。
測れるCTと、測れない批判性の断層
- メタ分析が扱えるのは標準化テストに載る批判的思考に限られる。価値観の問い直しや権力批判を含む広義の批判性は、測定の外に残される。論文はこの限界を自ら明示する。
余談——AIは三条件と相性がよい、だからこそ危うい
- AIは問い返し・ケース生成・即時フィードバックを安く再現できる。しかし「答える速さ」が、思考の外化を外注へと反転させる。考える道具にするには、あえて答えさせない設計が要る。

キーワード解説

【効果量(g+)】

異なる研究の結果を比較できるよう標準化した、介入の効きめの指標。本研究のg+はヘッジズのgを統合した値で、目安としては0.2前後で小、0.5前後で中程度とされる。

【一般スキル説と文脈依存説】

批判的思考を、領域を超えて転移するスキルとみる立場(エニス、シーゲル)と、思考は常に特定の主題についての思考であり領域知識と不可分とみる立場(マクペック)。本研究は前者の枠組みで効果量を統合している。

【真正な問題(authentic / anchored instruction)】

正解が一つに定まらない、現実に近い課題。ケース、シミュレーション、倫理的ジレンマなど。デューイの「心理化された知識」——学習者の経験に編み込まれ、意味を持つに至った知識——という発想に連なる。

【思考の外化】

頭のなかの推論を言語化して外に出すこと。外に出すことで、自分では気づけなかった論理の穴や飛躍が可視化される。対話が批判的思考に効く、中核的な機序とされる。

【広義の批判性】

論理や証拠の検討にとどまらず、社会制度や権力構造の前提、そして自分自身の価値観までを問い直す力。標準化テストでは測りにくく、本研究の射程の外に置かれている。