ブースティングと正則化経路 — Lassoと学習アンサンブル
ブースティングは「弱い学習器を順番に足し合わせて強いモデルを作る手法」だ。 でも、なぜ過学習しにくいのか?この章では、その謎をL₁正則化(Lasso)との 驚くべき等価性から解き明かす。さらに「スパースへの賭け」という重要な哲学と、 それを活かした効率的な学習アンサンブル手法(ISLE)を学ぶ。
ブースティングの「正体」— なぜ過学習しにくいのか?
ブースティングは「遅く過学習する」と言われてきた。 弱い学習器を何百個も足し合わせれば、すぐに過学習しそうなのに、実際にはそうならないことが多い。
この謎を解く鍵は、ブースティングが「実はLassoをやっている」という意外な事実だ。
まず発想の転換をしよう。すべての可能なJ端末ノード(葉がJ個)の決定木の集合を 「辞書」T = {T_k} と呼ぶ (辞書 = 使える基底関数の全候補)。この辞書の中から木を選んで線形結合するモデルを作ることを考える:
ここで K = card(T) は辞書のサイズ。各 $\alpha_k$ が 「木 $T_k$ をどれだけ使うか」の重みだ。
問題は、可能な木の数が膨大(訓練データよりはるかに多い)なので、何らかの正則化が必要だということだ。 そこで登場するのがペナルティ付き最適化問題だ:

$J(\alpha)$ としてL₁ノルム($\sum|\alpha_k|$)を使うとLasso、L₂ノルム($\sum|\alpha_k|^2$)を使うとリッジ回帰になる。 Lassoの特徴は「スパース解」— 大多数のαがゼロになり、少数の木だけが選ばれる。
Lassoのポイント: λが大きいほど多くのαがゼロに押しつぶされる。 つまり正則化の強さがモデルの複雑さを直接制御する。 ブースティングの「学習率(縮小率)」がこのλに対応する。
ブースティングのアルゴリズム(縮小付きForward Stagewise)は、 このLasso問題を近似的に解いているに過ぎない。 だから「遅く過学習する」のではなく、「正則化された経路をゆっくり辿っている」のだ。
Forward Stagewise アルゴリズム — Lassoを「少しずつ」解く
直接Lassoを解くには計算が大変だ(木の数が膨大すぎる)。 しかし、Forward Stagewise線形回帰(前向き段階的回帰)というアルゴリズムが、 Lassoを巧みに近似する。
アルゴリズムの手順はシンプルだ:
- すべての係数を0で初期化: $\hat{\alpha}_k = 0$
- M回繰り返す:
- 残差に最もフィットする木 $T_{k^*}$ と 方向 $\beta^*$ を見つける
- その木の係数を少しだけ更新:$$\hat{\alpha}_{k^*} \leftarrow \hat{\alpha}_{k^*} + \varepsilon \cdot \text{sign}(\beta^*)$$
- モデルを出力

重要なのは「$\varepsilon$(非常に小さな値)だけ更新する」こと。 1ステップで大きく動かすのではなく、最も有望な方向へ少しずつ進む。 これがブースティングの学習率(shrinkage)に対応する。
$\varepsilon \to 0$ の極限では(FS₀と呼ぶ)、 このアルゴリズムはLassoの単調バージョンを解く。 「単調」とは係数が増えることしかなく、減ることがない (選ばれた木は常に残差と正の相関を持つから)。
結果として、ブースティングの正則化経路はLassoよりもなめらかで、 強い相関がある変数群があっても安定して動く。
ではなぜL₁ペナルティ(Lasso)なのか? L₂(リッジ)とは何が違うのか? 次のセクションでその答えを見ていこう。
スパースへの賭け — L₁かL₂か
L₁(Lasso)とL₂(リッジ)、 どちらが優れているのか?その答えは「真の関数がスパースかどうか」による。

スパースな状況(少数の変数・木だけが真に重要な場合)では:
- 真のモデルが100万個の木のうち、わずか数個で説明できる
- L₁(Lasso)が圧倒的に有利。重要な少数の木を選び、残りはゼロにする
- L₂(リッジ)は全係数を均等に縮小するので、重要な少数が埋もれる
密な状況(全変数が関係する場合)では:
- L₂が理論上は有利(係数がガウス分布から生成されていれば、ベイズ的にリッジが最良)
- しかし実際には両方ともうまくいかない— 推定すべき非ゼロ係数が多すぎて、データ量が足りないから
これが「スパースへの賭け(Bet on Sparsity)原理」だ:
スパースな問題でうまくいく手法を使え。なぜなら、密な問題でうまくいく手法は存在しないから。
高次元では、真の問題が密であれば、どんな手法も膨大なデータなしには勝てない (次元の呪い)。 一方、スパースであれば、L₁ペナルティが効果的に機能する。 だから、L₁ペナルティに賭けることが合理的だ。
この原則は、ブースティングが実用上なぜ強いかの根拠でもある。 ブースティングはLassoの近似として、「スパース性」という賭けに乗っているのだ。
正則化経路とマージン — 「遅く過学習」の数学的理由
「スパースへの賭け」で、L₁がなぜ高次元で有効かが分かった。 では、ブースティングが具体的に 「なぜ過学習しにくいか」をさらに深く見てみよう。
この知識を実用的なアルゴリズムの理解に繋げる鍵がマージンだ。 分類問題で正規化L₁マージンを次のように定義する:
$m(f)$ は「訓練サンプルの中で、 最も境界線に近い点の確信度」を表す ($y_i \in \{-1, +1\}$)。 マージンが大きいほど、モデルはすべての訓練点を余裕を持って分類できている。

AdaBoostは各反復でこのマージンを増やす方向に動くことが証明されている。 つまり:
- 初期: マージンが小さく(ギリギリの分類)
- 反復が進む: マージンが大きくなる(余裕が増える)
- ある時点でテスト誤差が最小になる → その後もマージンは増え続ける
- さらに進むと過学習が始まる
ブースティングの全過程はL₁正則化された単調経路であり、 終点(無限に繰り返した場合)がマージン最大化解となる。 早期停止(early stopping)とは「経路の途中で止まる」ことであり、 検証データで最良の点を見つける賢い戦略だ。
この洞察から、ブースティングを「過学習する危険な手法」ではなく、 「正則化された探索経路を歩む学習アルゴリズム」として捉えることができる。
学習アンサンブル — 2段階で最強のモデルを作る(ISLE)
これまでの洞察を実用的なアルゴリズムに落とし込んだのがISLE(Importance Sampled Learning Ensemble)だ。
2段階アプローチで構成される:
Stage 1: 多様な辞書の生成
ブースティングやランダムフォレストで大量の木を生成する。 ポイントは「多様性」— サブサンプリング(η = サブサンプリング率)を使って、 毎回少し違う木を育てる:
- 各反復でデータのη割(例: η=1/2)をランダムに使う
- ν(メモリパラメータ)で「以前の木と似た木を避ける」制御をする
Stage 2: Lassoで後処理
生成された辞書 $\mathcal{T}_L$ から、Lassoを使ってスパースな組み合わせを選ぶ (λが大きいほど選ばれる木の数が少なくなる):

この方法の威力:
- ランダムフォレスト1000本 → Lasso後処理で約40本だけが選ばれる
- 予測精度はほぼ同じかそれ以上
- 計算・記憶コストが大幅に削減(約25分の1)
「多様な辞書を生成し、その中からLassoで最も効果的な組み合わせを選ぶ」 — これがISLEの本質だ。 スパースへの賭けを実際のエンジニアリングに落とし込んだ形といえる。
ルールアンサンブル — 木からルールへ、解釈可能性を取り戻す
ISLEでは木を辞書として使った。さらなる発展として、木からルール(if-then条件)を抽出する方法がある。
1本の決定木から、各パス(根から葉へのルート)をそれぞれ1つのルールとして抽出できる。例えば:
- $R_1(X) = I(X_1 < 2.1)$(X₁が2.1未満なら1、そうでなければ0)
- $R_3(X) = I(X_1 \geq 2.1) \cdot I(X_3 \in \{S\})$
- $R_5(X) = I(X_1 \geq 2.1) \cdot I(X_3 \in \{S\}) \cdot I(X_7 < 4.5)$
※ $I(\text{条件})$ は指示関数(条件が真なら1、偽なら0)

多くの木からルールを抽出して大きな辞書を作り、それをLassoで後処理する:
ルールアンサンブルの利点:
- 解釈可能性: 選ばれたルールが何を意味するか分かりやすい。 「X₁ < 2.1 かつ X₃が{S}に属する」という条件が満たされる場合に どう予測するか、直感的に理解できる
- モデルの拡張: 木よりも豊富な表現力(各変数 X_j を単体でも含めると線形関係もモデルできる)
- パフォーマンス: 木そのもののアンサンブルと同等かそれ以上
ルールアンサンブルは、予測性能と解釈可能性の両方を追求する現代的なアプローチだ。 「ブラックボックスを避けたい」という実務の要求と「高精度を実現したい」という技術の要求を 同時に満たす、ISLE理論の実践的な発展形といえる。
この章で明らかになった5つの洞察
- ブースティング ≈ Lasso: 縮小ありブースティングは、木の辞書に対するL₁正則化問題を近似的に解いている
- スパースへの賭け: 高次元では密な問題はどの手法でも解けない。L₁ペナルティはスパース問題に有効なので、 スパース性を仮定して賭けることが合理的
- マージン最大化: ブースティングの経路はL₁正則化された単調経路であり、終点がマージン最大化解。 早期停止は経路上の最適点選択
- ISLE: 多様な辞書生成(サブサンプリング) + Lasso後処理 = 効率的なアンサンブル (1000本 → 40本程度に圧縮)
- ルールアンサンブル: 木からルールを抽出し、解釈可能性と予測性能を両立