決定木のような学習器は、訓練データが少し変わるだけで結果がガラリと変わる「不安定」な性質を持つ。1 本ずつ見ればコロコロと姿を変えるが、同じデータからブートストラップで作った何十本もの木をまとめて平均すると、不思議なほど精度が上がる。
これが Bagging(Bootstrap Aggregating) である。本章では「なぜ平均で精度が上がるのか」「いつ効いて、いつ効かないのか」を、数式とアニメーションで紐解く。
決定木は強力な手法だが、致命的な弱点を一つだけ持っている。それはデータに対する過敏さだ。同じ問題に対し、訓練データから 1 点だけ抜いたり、別の点を追加したりするだけで、木の構造が完全に変わってしまうことがある。
このとき、最初の分割(ルート)で選ばれる変数が変わると、その下に伸びる枝もすべて違う形になる。同じ「学習器」を呼んでいるはずなのに、得られるモデルはまるで別物。これを不安定 (instability) と呼ぶ。

不安定さは「悪い」ことのように聞こえるが、実は逆の見方ができる。揺らぎが大きいということは、たくさんの異なる仮説を、データを介して見せてくれているとも言える。ならば、これらをひとつに平均したらどうなるだろう? — ここから Bagging のアイデアが生まれる。
ブートストラップの復習: ブートストラップとは、手元の $N$ 個のデータから重複を許して $N$ 個をランダムに選び直す操作のこと。これにより「元のデータからありえた別の世界線のデータ」を擬似的にたくさん作れる(詳細は 8.2 節)。同じ点が複数回入ったり、入らなかったりするので、できあがるデータセットは元と少し違う。
記号の読み方:
$B$ 本の木はそれぞれ少し違うデータを見ているから、少し違う予測をする。これが「不安定だが豊かな多様性」を生む。
ここではまず回帰(連続値を予測する場面)を考える。Bagging の核心はあきれるほどシンプルだ。$B$ 個のブートストラップサンプルでそれぞれモデルを訓練し、それらの予測をただ平均するだけ。
この一行で、不安定だった予測器が安定し、テスト誤差が大きく下がる。直感的には、「1 本ずつはノイズで揺らいでいるが、平均化すると揺らぎがキャンセルされる」イメージだ。

なぜキャンセルされるのか? それは、ブートストラップがデータ分布から「ありえた別のデータ」を擬似的に作っているからだ。それぞれの $\hat{f}^{*b}$ は別世界線での予測。多数の世界線を平均すれば、特定の偶然に依存しない、より「平均的に正しい」予測が得られる。
ブートストラップの本数 $B$ を増やしていくと、平均値はある一定の理想値に近づいていく。式で書くと:
ここで:
要するに「$B$ 本のブートストラップ平均」は、$B$ が大きくなるほど「無限本ブートストラップしたときの理想の平均」に近づく。Bagging はこの理想を有限本で近似する作業だ。
Bagging が効く理由を、もう少し数式の側から覗いてみよう。その前に、ふたつの基本概念をおさらいしておく(前章 7.3 節のバイアス・バリアンス分解を思い出してほしい):
たとえばダーツに例えると、バイアスは「狙いがずれている」、バリアンスは「手元が震えている」イメージだ。良い予測器とは、両方が小さいダーツの腕前を持つもの。
ここで重要な事実が一つある:
なぜか? 平均化の操作は「複数の予測の中心」を取るだけだから、どこを中心と見るか(バイアス)は変わらない。一方、中心からのばらつき(バリアンス)は、$B$ 個のほぼ独立な予測を平均すれば、おおむね $1/B$ に小さくなる。

これを式で確認しよう。真の分布 $\mathcal{P}$ のもとで予測誤差(2 乗誤差)を、$\hat{f}_{\text{bag}}$ を中心に展開すると:
この分解は $\hat{f}_{\text{bag}}$ が「ブートストラップ平均」であることからクロス項が消えて成立する(個別予測 $\hat{f}^*$ から平均 $\hat{f}_{\text{bag}}$ への偏差は平均 0 になるため)。
右辺の第 2 項は追加の分散項で、必ず非負。だから個別予測の誤差は、Bagging 予測の誤差より必ず大きいか等しい。
不等号は平均化が誤差を悪化させないことを保証する。条件は「予測の平均が真値に近いこと」、すなわち低バイアスな学習器であること。
ただし注意点として、この主張が成り立つには予測の平均が真の関数に近いこと(バイアスが小さいこと)が必要だ。不安定だが平均的には正しい — そういう学習器に Bagging はピタリと刺さる。この前提が崩れると Bagging は効かない(Section 6 で詳しく見る)。
回帰では「予測値を平均する」ので話は単純だった。だが分類ではどうやって平均する? 各木は「クラス A」「クラス B」のようなラベルしか返さない。
ここで Bagging には 2 つの選択肢がある:
なお「終端ノードでのクラス比率」とは、その葉に落ちる訓練データのうち、各クラスが占める割合のこと(たとえば 8 個中 6 個が「クラス A」なら $p_A = 0.75$)。

経験的には確率平均の方が安定で、テスト誤差も小さいことが多い。なぜか? 多数決は「最後にハードな決定」を木ごとに行うため、確率 0.51 でも 0.99 でも同じ 1 票になり、情報が失われる。確率平均なら、自信のなさそうな木は弱く重みづけられる効果がある。
たとえば真の確率が $P(Y=1|x) = 0.75$ の点を考えよう。各木の確率推定値を平均すれば、約 0.75 に収束する。一方、多数決でも 75% の木が「クラス 1」と投票して正解クラスを選ぶが、最終的な確率推定値は得られない。確率まで知りたい用途(リスク評価、不確実性の表現)では確率平均が圧倒的に有利だ。
多数決の式:
確率平均の式:
記号の読み方:
Bagging の効果は、社会心理学で言う群衆の知恵 (wisdom of crowds) に通じる。個々人は完全な専門家でなくとも、独立に判断する大勢の意見を集約すれば、専門家を超える精度が得られる現象だ。
形式的に書くなら: $B$ 人がそれぞれ独立に、正解率 $p > 0.5$ で 2 択を当てるとする。多数決の正解率は、$B$ が増えるにつれて $1$ に近づく。これはCondorcet の陪審定理として 18 世紀から知られており、背景にあるのは「多数の独立な試行を平均すると、真の確率に収束する」という大数の法則だ。

しかし、ここに重要な条件が隠れている。それは「判断が独立であること」。もし全員が同じ情報源を見て、同じバイアスを持っていれば、何人集めても集約精度は上がらない。
ブートストラップサンプルから作った木は、完全に独立ではないが(元のデータは共通)、ある程度のランダム性を持つ。だから Bagging は「不完全に独立な学習器を多数集めた群衆」として機能し、群衆の知恵を引き出せる。
これが後にランダムフォレストで「変数の選択をさらにランダム化して独立性を高める」改良につながる。
$B$ 人の独立な投票者が、各々正解率 $p > 0.5$ で 2 択を当てるとき、多数決の正解率は:
記号の読み方:
つまり投票者数を無限に増やせば、多数決は必ず正解する。ただし $p > 0.5$(コイン投げよりはマシ)と、各人の独立性が前提だ。
Bagging は万能ではない。効果が乏しい、あるいは逆効果になることもある。代表的なケースを 2 つ挙げよう。
ケース 1: 既に安定な推定器
線形回帰のような滑らかなパラメトリックモデルは、データが少々変わっても予測がほとんど変わらない(バリアンスが小さい)。こうしたモデルに Bagging をかけても、平均すべき揺らぎが元々ないので、ほぼ何も起こらない。
ケース 2: バイアスが支配的なモデル
モデルがそもそも単純すぎて、真の構造を表現しきれない場合(例: 線形モデルで非線形パターンを近似)、誤差の大半はバイアスに由来する。Bagging はバイアスを変えないので、いくら平均しても誤差は減らない。

たとえば XOR 型(2 変数で対角の領域に同じクラスが配置される)の分類問題に対し、「軸並行の単一分割」しか許さない単純なルールで Bagging を行う実験では、確率平均は多少の改善をもたらすが、バイアスを下げる手法には大きく劣る。
Bagging による誤差の変化を、バイアスとバリアンスに分解した形で書くと:
ただし注意: $\frac{1}{B}$ という係数は「$B$ 個の予測が完全に独立な場合の理想」だ。実際にはブートストラップ複製は元データを共有するため、予測同士に相関が残り、$\frac{1}{B}$ ほどには減らない。この「予測同士の相関」をさらに弱める工夫が、ランダムフォレストで導入される「変数選択のランダム化」である。
つまり、Bagging は「高分散・低バイアス」な不安定学習器にこそ効く処方箋であり、「高バイアス」を救う薬ではない。この使い分けが、後章で扱うBoosting(誤差を順次学習して足し算する手法。10 章・16 章)やランダムフォレスト(Bagging に変数選択のランダム化を加えた手法。15 章)の動機の理解にもつながる。
| 項目 | Bagging の効果 |
|---|---|
| 不安定な学習器(決定木、ニューラルネット) | ◎ バリアンスを大きく減らす |
| 安定な推定器(線形回帰、滑らかなパラメトリックモデル) | △ ほぼ効果なし |
| バイアスが支配的なモデル | × 効果なし、Boosting や複雑なモデルが必要 |
| 解釈性 | × Bagging すると単一の木の構造が失われる |
Bagging はシンプルだが、「バリアンスを平均でつぶす」という統計学の本質を見せてくれる手法だ。これを変数選択でさらに独立化したランダムフォレスト(Chapter 15)や、誤差そのものを学習するBoosting(Chapter 10, 16)への入り口にもなっている。