ブースティングと正則化経路 — Lassoと学習アンサンブル

ブースティングは「弱い学習器を順番に足し合わせて強いモデルを作る手法」だ。でも、なぜ過学習しにくいのか？この章では、その謎をL₁正則化（Lasso）との驚くべき等価性から解き明かす。さらに「スパースへの賭け」という重要な哲学と、それを活かした効率的な学習アンサンブル手法（ISLE）を学ぶ。

ブースティングの「正体」— なぜ過学習しにくいのか？

ブースティングは「遅く過学習する」と言われてきた。弱い学習器を何百個も足し合わせれば、すぐに過学習しそうなのに、実際にはそうならないことが多い。

この謎を解く鍵は、ブースティングが「実はLassoをやっている」という意外な事実だ。

まず発想の転換をしよう。すべての可能なJ端末ノード（葉がJ個）の決定木の集合を「辞書」T = {T_k} と呼ぶ（辞書 = 使える基底関数の全候補）。この辞書の中から木を選んで線形結合するモデルを作ることを考える:

f(x) = \sum_{k=1}^{K} \alpha_k T_k(x)

ここで K = card(T) は辞書のサイズ。各 $\alpha_k$ が「木 $$T_k$$ をどれだけ使うか」の重みだ。

問題は、可能な木の数が膨大（訓練データよりはるかに多い）なので、何らかの正則化が必要だということだ。そこで登場するのがペナルティ付き最適化問題だ:

\min_{\alpha} \left\{ \sum_{i=1}^{N} \left( y_i - \sum_{k=1}^{K} \alpha_k T_k(x_i) \right)^2 + \lambda \cdot J(\alpha) \right\}

ブースティングの係数更新経路とLassoの正則化経路が似た形を描く — 左: 反復数と係数値の経路（ブースティング）、右: L₁ノルムと係数値の経路（Lasso）— 驚くほど似た形をたどる

$J(\alpha)$ としてL₁ノルム（ $\sum|\alpha_k|$ ）を使うとLasso、L₂ノルム（ $\sum|\alpha_k|^2$ ）を使うとリッジ回帰になる。 Lassoの特徴は「スパース解」— 大多数のαがゼロになり、少数の木だけが選ばれる。

J(\alpha) = \sum_{k=1}^{K} |\alpha_k| \quad \text{（Lasso、L₁ペナルティ）}

Lassoのポイント: λが大きいほど多くのαがゼロに押しつぶされる。つまり正則化の強さがモデルの複雑さを直接制御する。ブースティングの「学習率（縮小率）」がこのλに対応する。

ブースティングのアルゴリズム（縮小付きForward Stagewise）は、このLasso問題を近似的に解いているに過ぎない。だから「遅く過学習する」のではなく、「正則化された経路をゆっくり辿っている」のだ。

Forward Stagewise アルゴリズム — Lassoを「少しずつ」解く

直接Lassoを解くには計算が大変だ（木の数が膨大すぎる）。しかし、Forward Stagewise線形回帰（前向き段階的回帰）というアルゴリズムが、 Lassoを巧みに近似する。

アルゴリズムの手順はシンプルだ:

すべての係数を0で初期化: $\hat{\alpha}_k = 0$
M回繰り返す:
- 残差に最もフィットする木 $T_{k^*}$ と方向 $\beta^*$ を見つける
- その木の係数を少しだけ更新: $\hat{\alpha}_{k^*} \leftarrow \hat{\alpha}_{k^*} + \varepsilon \cdot \text{sign}(\beta^*)$
モデルを出力

Forward Stagewise アルゴリズムが少しずつ係数を更新していく過程 — 各ステップで最も有望な木の係数を ε だけ更新する。光る点が「今更新された木」を示す

重要なのは「 $\varepsilon$ （非常に小さな値）だけ更新する」こと。 1ステップで大きく動かすのではなく、最も有望な方向へ少しずつ進む。これがブースティングの学習率（shrinkage）に対応する。

$\varepsilon \to 0$ の極限では（FS₀と呼ぶ）、このアルゴリズムはLassoの単調バージョンを解く。「単調」とは係数が増えることしかなく、減ることがない（選ばれた木は常に残差と正の相関を持つから）。

結果として、ブースティングの正則化経路はLassoよりもなめらかで、強い相関がある変数群があっても安定して動く。

ではなぜL₁ペナルティ（Lasso）なのか？ L₂（リッジ）とは何が違うのか？次のセクションでその答えを見ていこう。

スパースへの賭け — L₁かL₂か

L₁（Lasso）とL₂（リッジ）、どちらが優れているのか？その答えは「真の関数がスパースかどうか」による。

スパースな状況（少数の重要変数）と密な状況（全変数が寄与）の対比 — 左（スパース）: 少数の変数だけが重要で、L₁が有効。右（密）: 全変数が寄与し、どの手法も苦しむ

スパースな状況（少数の変数・木だけが真に重要な場合）では:

真のモデルが100万個の木のうち、わずか数個で説明できる
L₁（Lasso）が圧倒的に有利。重要な少数の木を選び、残りはゼロにする
L₂（リッジ）は全係数を均等に縮小するので、重要な少数が埋もれる

密な状況（全変数が関係する場合）では:

L₂が理論上は有利（係数がガウス分布から生成されていれば、ベイズ的にリッジが最良）
しかし実際には両方ともうまくいかない— 推定すべき非ゼロ係数が多すぎて、データ量が足りないから

これが「スパースへの賭け（Bet on Sparsity）原理」だ:

スパースな問題でうまくいく手法を使え。なぜなら、密な問題でうまくいく手法は存在しないから。

高次元では、真の問題が密であれば、どんな手法も膨大なデータなしには勝てない（次元の呪い）。一方、スパースであれば、L₁ペナルティが効果的に機能する。だから、L₁ペナルティに賭けることが合理的だ。

この原則は、ブースティングが実用上なぜ強いかの根拠でもある。ブースティングはLassoの近似として、「スパース性」という賭けに乗っているのだ。

正則化経路とマージン — 「遅く過学習」の数学的理由

「スパースへの賭け」で、L₁がなぜ高次元で有効かが分かった。では、ブースティングが具体的に「なぜ過学習しにくいか」をさらに深く見てみよう。

この知識を実用的なアルゴリズムの理解に繋げる鍵がマージンだ。分類問題で正規化L₁マージンを次のように定義する:

m(f) = \min_i \frac{y_i f(x_i)}{\sum_{k=1}^{K} |\alpha_k|}

$$m(f)$$ は「訓練サンプルの中で、最も境界線に近い点の確信度」を表す（ $y_i \in \{-1, +1\}$ ）。マージンが大きいほど、モデルはすべての訓練点を余裕を持って分類できている。

反復数とともにマージンが増加し、テスト誤差がU字型に変化する — 上: マージンは反復とともに増加し続ける。下: テスト誤差はU字型（黄色の破線が早期停止の最適点）

AdaBoostは各反復でこのマージンを増やす方向に動くことが証明されている。つまり:

初期: マージンが小さく（ギリギリの分類）
反復が進む: マージンが大きくなる（余裕が増える）
ある時点でテスト誤差が最小になる → その後もマージンは増え続ける
さらに進むと過学習が始まる

ブースティングの全過程はL₁正則化された単調経路であり、終点（無限に繰り返した場合）がマージン最大化解となる。早期停止（early stopping）とは「経路の途中で止まる」ことであり、検証データで最良の点を見つける賢い戦略だ。

この洞察から、ブースティングを「過学習する危険な手法」ではなく、「正則化された探索経路を歩む学習アルゴリズム」として捉えることができる。

学習アンサンブル — 2段階で最強のモデルを作る（ISLE）

これまでの洞察を実用的なアルゴリズムに落とし込んだのがISLE（Importance Sampled Learning Ensemble）だ。

2段階アプローチで構成される:

Stage 1: 多様な辞書の生成

ブースティングやランダムフォレストで大量の木を生成する。ポイントは「多様性」— サブサンプリング（η = サブサンプリング率）を使って、毎回少し違う木を育てる:

各反復でデータのη割（例: η=1/2）をランダムに使う
ν（メモリパラメータ）で「以前の木と似た木を避ける」制御をする

Stage 2: Lassoで後処理

生成された辞書 $\mathcal{T}_L$ から、Lassoを使ってスパースな組み合わせを選ぶ（λが大きいほど選ばれる木の数が少なくなる）:

\alpha(\lambda) = \arg\min_{\alpha} \sum_{i=1}^{N} L\left[y_i, \alpha_0 + \sum_{m=1}^{M} \alpha_m T_m(x_i)\right] + \lambda \sum_{m=1}^{M} |\alpha_m|

多数の木を生成し、漏斗（Lasso）で少数を選択する2段階プロセス — 左の多数の木が漏斗（Lasso）を通り、右の少数の選ばれた木として出力される

この方法の威力:

ランダムフォレスト1000本 → Lasso後処理で約40本だけが選ばれる
予測精度はほぼ同じかそれ以上
計算・記憶コストが大幅に削減（約25分の1）

「多様な辞書を生成し、その中からLassoで最も効果的な組み合わせを選ぶ」 — これがISLEの本質だ。スパースへの賭けを実際のエンジニアリングに落とし込んだ形といえる。

ルールアンサンブル — 木からルールへ、解釈可能性を取り戻す

ISLEでは木を辞書として使った。さらなる発展として、木からルール（if-then条件）を抽出する方法がある。

1本の決定木から、各パス（根から葉へのルート）をそれぞれ1つのルールとして抽出できる。例えば:

$$R_1(X) = I(X_1 < 2.1)$$ （X₁が2.1未満なら1、そうでなければ0）
$R_3(X) = I(X_1 \geq 2.1) \cdot I(X_3 \in \{S\})$
$R_5(X) = I(X_1 \geq 2.1) \cdot I(X_3 \in \{S\}) \cdot I(X_7 < 4.5)$

※ $I(\text{条件})$ は指示関数（条件が真なら1、偽なら0）

決定木から各パス（根→葉）がルールとして抽出される様子 — 決定木の各パスが順番に光り、対応するルール（緑のバー）として変換される

多くの木からルールを抽出して大きな辞書を作り、それをLassoで後処理する:

\mathcal{T}_{\text{RULE}} = \bigcup_{m=1}^{M} \mathcal{T}^m_{\text{RULE}}

ルールアンサンブルの利点:

解釈可能性: 選ばれたルールが何を意味するか分かりやすい。「X₁ < 2.1 かつ X₃が{S}に属する」という条件が満たされる場合にどう予測するか、直感的に理解できる
モデルの拡張: 木よりも豊富な表現力（各変数 X_j を単体でも含めると線形関係もモデルできる）
パフォーマンス: 木そのもののアンサンブルと同等かそれ以上

ルールアンサンブルは、予測性能と解釈可能性の両方を追求する現代的なアプローチだ。「ブラックボックスを避けたい」という実務の要求と「高精度を実現したい」という技術の要求を同時に満たす、ISLE理論の実践的な発展形といえる。

この章で明らかになった5つの洞察

ブースティング ≈ Lasso: 縮小ありブースティングは、木の辞書に対するL₁正則化問題を近似的に解いている
スパースへの賭け: 高次元では密な問題はどの手法でも解けない。L₁ペナルティはスパース問題に有効なので、スパース性を仮定して賭けることが合理的
マージン最大化: ブースティングの経路はL₁正則化された単調経路であり、終点がマージン最大化解。早期停止は経路上の最適点選択
ISLE: 多様な辞書生成（サブサンプリング） + Lasso後処理 = 効率的なアンサンブル（1000本 → 40本程度に圧縮）
ルールアンサンブル: 木からルールを抽出し、解釈可能性と予測性能を両立