半分捨てたら、むしろうまくいった――AIの学習を「あえて乱す」という逆転の発想
- Seo Seungchul

- 2 日前
- 読了時間: 12分

シリーズ: 論文渉猟
◆今回の論文:Taejong Joo et al., "On Surprising Effectiveness of Masking Updates in Adaptive Optimizers" (arXiv, 2026年2月17日)
概要:大規模言語モデル(LLM)の学習において、パラメータ更新をランダムにマスク(省略)することが高い効果を発揮することを示した研究。ランダムマスクがもたらす「曲率依存の幾何学的正則化」という理論的な説明を与えつつ、そこからさらにモメンタムと勾配の方向整合性を利用した「Magma」を提案。1Bパラメータ規模のモデルでAdamと比較して約19%、Muonと比較して約9%の性能改善(perplexity削減)を達成した。
大きなAIモデルを訓練するとき、計算リソースは惜しみなく使うのが当然だと思われています。勾配(こうばい)と呼ばれる学習の手がかりは、せっかく計算したのだから全部使う。それが常識でした。
ところが最近、その前提を揺るがすような研究が登場しました。パラメータの更新をランダムに半分捨てても、なぜか学習がうまくいく。それどころか、最先端のオプティマイザー(最適化アルゴリズム)よりも良い結果が出てしまった、というのです。
富良野とPhronaが読んだのは、ノースウェスタン大学とGoogleの研究者たちが発表した論文。「Magma(マグマ)」と名付けられた新しい最適化手法の提案です。直感に反する結果の数々を前に、ふたりの話は「なぜ省くことが効くのか」という問いへと転がっていきます。
「捨てる」ことの意味を問い直すと、最適化だけでなく、どこか人間の思考や判断の話にも重なって見えてくる部分がある。そのあたりも含めて、ゆるやかに考えてみました。
「半分捨てても壊れない」という驚き
富良野:この論文、最初に結果だけ見たとき、正直なにかの間違いじゃないかと思いましたよ。更新を50%ランダムに捨てているのに、ちゃんと動いている。しかも最先端を超えている。
Phrona:私も似たような感覚でした。「捨てる」という行為が改善につながるって、どういう直感で考えればいいのかしばらく分からなくて。
富良野:機械学習の世界で「勾配(こうばい)」というのは、モデルがどの方向にどれだけ間違っているかを示す信号なんです。バックプロパゲーション、つまり誤差の逆伝播という仕組みで一気に計算して、全パラメータを同時に更新する。それが効率的だからこそ、Adamをはじめとする手法が標準になってきた。
Phrona:その「全部使う」前提を、この論文はいきなりひっくり返したわけですね。
富良野:ええ。まず「SkipUpdate」という単純なベースライン実験を見せるんです。RMSPropというオプティマイザーに、ただランダムにブロック単位で更新をスキップするだけ。理論的には悪化するはずなのに、結果は良くなる。
Phrona:ブロック単位、というのはどういう意味ですか?
富良野:モデルのパラメータを、たとえば行列の列ごととか、レイヤーごととかの「塊」に分けて考えるんですね。その塊ごとに、今回更新するかどうかをコイントスで決める感じです。当たった塊は更新、外れた塊は今回パス。ただし「パスした分だけ更新した塊を大きめに動かして、期待値は同じになるように調整する」という工夫はある。
Phrona:それでも捨てた情報は捨てているわけで……。なぜ効くんでしょう。
富良野:そこが論文の核心で、「曲率依存の幾何学的正則化」という説明が出てきます。少し聞きなれない言葉ですが、要するに「損失地形の急峻な方向への更新を暗黙的に抑制している」ということです。
Phrona:損失地形、というのはよく聞く言葉ですけど、改めてどういうイメージですか?
富良野:モデルのパラメータ空間を、起伏のある地形に見立てるんです。谷の底が「よく学習できた状態」で、山の頂上が「間違いだらけの状態」。訓練はその地形の上で谷を探して歩いていくプロセスです。で、ランダムマスクをかけると、地形の急な崖っぷちへ飛び込むような更新が自動的に抑えられるという効果が生まれる。
「平坦さ」が汎化を生む、という不思議な関係
Phrona:急な崖を避けると、なぜ嬉しいんでしょう。損失が下がれば谷底に向かってどんどん降りればいい、という感じもしますが。
富良野:これが面白いんですが、鋭い谷底と緩やかな谷底って、訓練データへの当てはまり方は似ていても、未知のデータへの対応力が違うことが多い。鋭い谷底は、少しパラメータがずれただけで損失が爆発的に上がる不安定な場所で、緩やかな谷底のほうが「ちょっとくらいずれても大丈夫」という頑健さを持っている。
Phrona:つまりランダムマスクは、モデルを「ゆったりとした谷底」へ誘導する効果を持っている、と。
富良野:そういうことです。わざと揺らすことで、細くて深い谷に落ちるのを防いでいる。この考え方自体は昔からあって、Dropoutというニューラルネット内部のランダム不活性化と似た発想なんですが、今回のは最適化のアルゴリズムレベルで起きているところが新しい。
Phrona:Dropoutって、訓練中にランダムにニューロンを無効にする技術ですよね。あれとの違いは?
富良野:Dropoutはモデルの構造側への介入で、「使えるユニットを減らして頑健な表現を学ばせる」という正則化です。一方でこちらは更新ステップ側への介入。モデルの構造は変えずに、学習の歩き方を変えている。似た発想が、違うレベルで効いている、という感じかもしれない。
Phrona:「省くことで頑健になる」という原理が、違う場所でも顔を出している。
富良野:ええ。それが何か偶然じゃないような気がして、少し考え込んでしまいました。
Magmaへ——「どれを省くか」に知性を持たせる
Phrona:ランダムに省くだけでも効くなら、それで十分じゃないんですか? なぜさらにMagmaという手法が必要だったんでしょう。
富良野:ランダムマスクは「一律に同じ確率で捨てる」ので、省くべきでない重要な更新も同じ確率で捨ててしまう可能性があります。Magmaは「どのブロックの更新を今回生かすか」を、もう少し賢く判断しようという試みです。
Phrona:その判断の基準が、モメンタムと勾配の向きの一致度、なんですよね。
富良野:そうです。モメンタムというのは、過去の勾配の「平均的な方向」を蓄積したものです。今回の勾配がその蓄積方向と同じ向きを指しているなら、それは信頼できるシグナルと見なして大きく動く。逆に、今回の勾配が過去の蓄積方向と逆を向いているなら、それはノイズに引きずられている可能性が高いので、大人しくしておく。
Phrona:一時的な気まぐれには乗らずに、継続的な傾向を信頼する、みたいな感じですね。
富良野:うまい言い方ですね。コサイン類似度という指標を使って方向の一致度を測り、sigmaoidという関数で0から1の間のスコアに変換する。スコアが高いブロックは更新を大きく、スコアが低いブロックは更新を小さくする。それだけのシンプルな仕組みなのに、結果の改善幅は大きい。
Phrona:1Bパラメータのモデルでperplexity(パープレキシティ)が約19%下がる、というのは、実際に使う側からするとどれくらい大きな話なんですか。
富良野:perplexityというのはざっくり言うと「モデルがどのくらい自信を持って次の単語を予測できるか」を測る指標で、小さいほど良い。19%の改善は結構大きい数字で、しかもMagmaは既存のAdamやLaPropといったオプティマイザーに「後付けで被せるだけ」で使えるという実用性もある。追加のメモリも計算コストも、ほぼゼロです。
ヘビーテイル、トランスフォーマー、そして「構造的な難しさ」
Phrona:Magmaがトランスフォーマーに特に効く、というのはどういう事情なんでしょう。別のアーキテクチャには同じように効かないと書いてありましたが。
富良野:実験でResNet-50という画像認識のモデルには改善が見られなかったんです。論文の解釈では、トランスフォーマーの損失地形は特有の「異質性」と「非平滑さ」を持っているから、という説明です。
Phrona:異質性、というのは?
富良野:モデルの各レイヤーや各ブロックで、曲率のスケールがバラバラだということです。あるブロックは非常に急峻で、別のブロックは緩やか。そのムラが大きいほど、ブロック単位で更新の強さを調整するMagmaの恩恵が大きくなる。CNNのような比較的均質な曲率構造では、そのメリットが出にくい。
Phrona:あと、ヘビーテイルノイズという条件での実験が面白くて。通常の条件ではAdamとMagmaの差があまりないのに、分布の裾が厚い、つまり極端な値が頻繁に出るような環境だとMagmaが大きく上回る。
富良野:LLMの学習では、勾配に外れ値が出やすいことが知られているんです。そういう乱暴な信号が来たときに、Magmaはモメンタムとの整合性でフィルタリングをかけるから、揺れに強い。Adamはもともとそういう状況に強い手法として有名なんですが、Magmaはその上をいった。
Phrona:「乱れに対して、さらに賢く乱れる」みたいな逆説的な構造ですね。外部のノイズを、内部のランダム性で打ち消すような。
富良野:その言い方、わりと正確かもしれないですね。ランダムネスがランダムネスを制御する、という。
「捨てることの意味」を少しだけ広く考える
Phrona:こうして話を聞いていると、なんとなく、最適化以外の話とも重なる気がしてきて。
富良野:ああ、なんとなくわかります。全部の情報を均等に使おうとすると、かえってノイズに引きずられることがある、みたいな話は、別のところでも出てきますよね。
Phrona:情報処理としての人間の判断もそうですし、組織の意思決定でも、全員の意見を全部重み付けなしで取り込もうとするとかえって迷走する、という話は聞きます。何を聞かないかを決めることが、何を聞くかと同じくらい重要になる場面。
富良野:ただ、人間の判断とアルゴリズムの最適化を安易に同一視するのは危ないとも思っていて。モデルの場合は「何を省くか」の基準が数学的に定義できますが、人間の判断での「何を省くか」はもっと複雑で、時に間違いも生む。
Phrona:それはそうですね。Magmaの面白さは、省き方に「モメンタムとの整合性」という一貫した基準がある点で。闇雲に省いているわけじゃない。
富良野:ランダムに省く段階でも効果があって、さらに基準を持って省くと効果が増す。その二段構えが、論文のストーリーとしてもきれいだと思いました。「省く」ことの有効性を示してから、「賢く省く」ことへと展開する。
Phrona:論文の構成自体が、主張を体現しているような。
富良野:いや、それはちょっとうまく言いすぎ(笑)。でもまあ、実験の積み上げ方は誠実で、直感に反する主張を丁寧に検証しているという印象は受けました。
ポイント整理
SkipUpdateという逆説的ベースライン
RMSPropをベースに、パラメータブロックをランダムに選んで更新をスキップするだけという極めてシンプルな変形。理論的には収束保証が悪化するはずだが、実験では最先端のAdamやMuonを一貫して上回る結果が出た。更新をスキップした分は、生き残ったブロックの更新を補正してバイアスを除いている。
曲率依存の幾何学的正則化
ランダムマスクが効く理由を数式で示したのが本論文の理論的貢献。ランダムに更新を省くと、損失関数のヘッセ行列(曲率を表す行列)の鋭い方向への更新が暗黙的に抑制される。これは「flatな損失地形(緩やかな谷底)」を好む傾向をもたらし、過学習への頑健性・汎化性能の向上につながる。この正則化は陽に曲率を計算することなく、ランダム性から自然に生まれる点が重要。
なぜトランスフォーマーに特に効くか
トランスフォーマーの損失地形は、ブロックごとに曲率のスケールが大きく異なる「異質性」を持つことが知られている。Magmaのブロック単位の更新調整はこの異質性に対して特に有効。一方でResNet-50のような比較的均質な曲率構造では改善効果が見られなかったことが、この解釈を裏付ける。
Magmaの仕組み
モメンタム(過去の勾配の移動平均)と今回の勾配のコサイン類似度を計算し、sigmoid関数でスコア化。スコアが高い(方向が一致している)ブロックは更新を大きく、低いブロックは小さくする。これにより、一時的なノイズに乗った更新を抑制しつつ、安定したシグナルに基づく更新を優先できる。モメンタム自体は常に密に更新し続けるため、安定した参照ベクトルが維持される。
実装の実用性
Magmaは既存のオプティマイザー(Adam、LaProp、RMSPropなど)に後付けで適用できるラッパーとして設計されており、追加のメモリや大きな計算コストを必要としない。温度パラメータτ=2という単一の設定がほとんどの規模・設定で安定して機能した。
スケーリングとの相性
モデル規模が大きくなるほど効果が増す傾向がある。1Bパラメータでの比較では、AdamにMagmaを適用することでAdamに比べ約19%、Muonに比べ約9%のperplexity削減を達成。MoE(Mixture-of-Experts)という分散型アーキテクチャでも改善が確認されている。
キーワード解説
【オプティマイザー(最適化アルゴリズム)】
ニューラルネットワークのパラメータをどのように更新するかを定めるアルゴリズム。Adam、RMSProp、SGDなどが代表的。学習の速度・安定性・最終的な性能に大きく影響する。
【勾配(gradient)】
損失関数がパラメータに対してどの方向に、どれくらい急に変化するかを示すベクトル。バックプロパゲーションで全パラメータについて一度に計算される。
【モメンタム(momentum)】
過去の勾配の指数移動平均。「最近の傾向としてどの方向が正しいか」を蓄積したもの。急な変動をなだらかにし、安定した更新方向を提供する。
【perplexity(パープレキシティ)】
言語モデルの性能評価指標。モデルがどれだけ自信を持って次の単語を予測できるかを数値化したもの。小さいほど良い性能を示す。
【損失地形(loss landscape)】
モデルのパラメータ空間を地形に見立てた概念。谷の底が最適なパラメータ、山頂が最悪な状態。緩やかな谷底(flat minimum)は汎化性能が高く、鋭い谷底(sharp minimum)は脆弱とされる。
【ヘッセ行列(Hessian matrix)】
損失関数の二次微分を並べた行列。損失地形の曲率(どれくらい急峻か)を記述する。固有値が大きいほど鋭い方向があることを意味する。
【正則化(regularization)】
訓練データへの過度な適合(過学習)を防ぐための工夫の総称。明示的に罰則項を加える方法と、Magmaのようにアルゴリズムの振る舞いから暗黙的に生まれる方法がある。
【ヘビーテイルノイズ(heavy-tailed noise)】
確率分布の裾が厚い、つまり極端に大きな値が通常より高頻度で現れるノイズ。LLMの学習における勾配はこの特性を持つことが多く、通常の最適化手法の仮定が崩れやすい。
【Mixture-of-Experts(MoE)】
複数の小さなモデル(エキスパート)を組み合わせて、入力に応じて使うエキスパートを動的に切り替えるアーキテクチャ。計算効率が高い一方、各エキスパートへのルーティングが不均一になるなど最適化が難しい。
【コサイン類似度】
二つのベクトルの「向きの一致度」を-1から1の範囲で表す指標。大きさに左右されず方向のみを比較できる性質を持つ。Magmaでは勾配とモメンタムの方向整合性を測るために使われる。