10.7 "既製品"手順 — なぜ決定木が現場で愛されるのか

データマイニングの現実と、off-the-shelf手法の条件

現場のデータは教科書通りにはいかない。数値と文字が混在し、欠損値があり、外れ値が紛れ込む。そんな状況で「棚から取り出してすぐ使える」手法はあるか？ 9つの観点で代表的な手法を比較すると、決定木の特異なプロファイルが浮かび上がる。そして、その唯一の弱点をブースティングがどう克服するのかを見ていこう。

現場のデータは、教科書通りじゃない

機械学習のアルゴリズムは、たいてい綺麗なデータで紹介されます。すべての特徴量が数値で、欠損なく、外れ値もない。そんなデータです。

しかし、現場のデータは違います。顧客分析を考えてみてください。年齢（数値）、職業（カテゴリ）、年収（数値だが時に欠損）、購入履歴（時系列、長さもバラバラ）。これらが一つのテーブルに同居しています。

散らかったデータが整列していくアニメーション — 現実のデータ：数値・カテゴリ・欠損・外れ値が混在している

上の図では、青い円が数値変数、黄色い四角がカテゴリ変数、赤い×が欠損値、オレンジの大きな円が外れ値を表しています。データを「モデルに食わせられる形」に整えることが、データサイエンティストの仕事の大半を占める現実があります。

「データマイニング」と呼ばれるこの状況では、前処理にかかる時間が分析時間の8割を占めるとすら言われます。データサイエンティストの仕事の大半は、「データをモデルに食わせられる形に整えること」だったりするのです。

ここで疑問が生まれます。前処理をほとんどしなくても、そのまま動いてくれる手法はないのか？棚から取り出してすぐ使える「既製品（off-the-shelf）」のような手法は？

ESLの著者たちは、この問いに対する答えを、9つの観点から代表的な手法を比較した1枚の表で示しました。それがこれから見ていく Table 10.1 です。

9つの観点で測る — 学習手法の「人物像」

優れた手法を選ぶ基準は、予測精度だけではありません。実務では、次のような問いがすべて関わってきます。 9つの観点を、3つのグループに分けて並べてみましょう。

A. データ対応力 — どんなデータでも飲み込めるか？

データ型を選り好みしないか？（数値とカテゴリを混ぜて使えるか）
欠損値があっても動くか？
外れ値に引きずられないか？
特徴量のスケール変換に敏感じゃないか？（「単調変換」とは、対数・平方根・指数関数のように順序を保つ変換のこと）

B. 計算特性 — 実行コストは現実的か？

大量のデータでも計算が終わるか？
無関係な変数を自動で無視してくれるか？

C. 結果の質 — 出てきた予測は使えるか？

複雑な特徴の組み合わせを抽出できるか？
結果を人間が解釈できるか？
そして — 予測は正確か？

5つの手法を9軸のレーダーチャートで比較するアニメーション — 9軸のレーダーチャート：形の違いで強み・弱みが一目でわかる

上の図は、ニューラルネット（青）・SVM（黄）・決定木（緑）・MARS（橙）・k-NN（赤）の 5手法を9軸で評価したレーダーチャートです。形の違いが、各手法の「個性」を表しています。

これら9つの観点で代表的な手法を採点すると、面白いことが見えてきます。

完璧な手法は、存在しない。

ニューラルネットやSVMは「予測精度」と「複雑な特徴の合成」では満点ですが、「外れ値への頑健性」「混合データ型対応」では赤点です。一方、決定木は「予測精度」だけが赤点で、それ以外はほぼ満点という、興味深いプロファイルを示します。

これは偶然ではありません。手法ごとの設計思想が、得意・不得意を決定づけているのです。

決定木が「既製品」たる7つの理由

決定木が9つの観点でほぼ満点を取れるのには、明確な理由があります。決定木のアルゴリズムを思い出してください。「ある特徴量が、ある値より大きいか？」という Yes/No の問いを繰り返し、データを枝分かれさせていく — それだけです。

このシンプルさが、驚くべき柔軟性を生み出します。

決定木が様々な種類のデータを処理するアニメーション — 決定木はデータの種類を選ばない：混合型・欠損・外れ値・スケール変換すべてに対応

1. 混合データ型を自然に扱える：数値変数は「閾値で分割」、カテゴリ変数は「集合で分割」と、両方を同じ枠組みで扱えます。
2. 欠損値に強い：欠損があれば「代替分割（surrogate split）」を使うか、欠損自体を1つのカテゴリとして扱えます。
3. 外れ値に頑健：分割は「閾値より上か下か」だけを見るので、極端な値がどれだけ大きくても、上か下かは変わりません。
4. 単調変換に不変：年収を「対数年収」に変換しても、順序は変わらないので、分割点が変わるだけで木の構造は不変です。
5. 大規模データに対応：木の構築は $O(N\log N)$ 程度で、大量のデータでも計算が終わります。
6. 無関係な変数を自動で無視：分割の良し悪しは「不純度の減少量」で判定されるので、関係ない変数は選ばれません。
7. 解釈可能：「年齢>30 → 年収>500万 → 購入確率高い」のように、決定パスが言語化できます。

ひとつひとつは些細に見えるかもしれませんが、実務でこれら全てを同時に満たす手法は、決定木以外にほとんど存在しないのです。

唯一の弱点 — 「カクカクした境界」

しかし、決定木にはたった一つ、致命的な弱点があります。予測精度が低いのです。

なぜでしょうか？決定木の予測関数は、座標軸に平行な「階段状」の関数しか作れないからです。データの真の関係が滑らかな曲線や斜めの境界線だった場合、決定木はそれをガクガクとした階段で近似することしかできません。

滑らかな境界と階段状境界の対比アニメーション — 赤が真の境界、緑が決定木の近似。木を深くすると境界は細かくなるが、過学習が起きる

上の図では、赤い曲線が「真の境界」（理想的な分類線）、緑の折れ線が決定木の近似です。木を深くすれば近づきますが、同時に不自然な形で特定の点を囲い込む「過学習」が起きます。

決定木の予測関数を数式で表すと次のようになります：

f(x) = \sum_{m=1}^{M} c_m \cdot \mathbb{1}(x \in R_m)

各記号の意味を丁寧に解説します。

$$M$$ ：領域の総数（木の葉の数）。たとえば $$M=8$$ なら、特徴空間が8つの矩形領域に分割されたことを意味します。
$$R_m$$ ： $$m$$ 番目の領域。座標軸に平行な境界で囲まれた矩形のような区画です。
$$c_m$$ ：領域 $$R_m$$ にデータが落ちたときに返す予測値。「葉ノードの値」と呼ばれます。
$\mathbb{1}(x \in R_m)$ ：指示関数。「 $$x$$ が領域 $$R_m$$ に入っていれば 1、入っていなければ 0」を返します。

つまりこの式は、「 $$x$$ がどの領域に入るかを調べて、その領域に対応する一定値 $$c_m$$ を返す」ということを表しています。領域が矩形である以上、境界は必ず「階段状」になります。

この階段近似は、深い木を作れば作るほど真の関数に近づきますが、同時に過学習を引き起こします。別の言い方をすれば、決定木は「バイアスは低くできるがバリアンスが高い」モデルなのです。

バイアス：真の関数からの系統的なズレ。「平均的にどれだけ外れているか」を表す。木を深くすればバイアスは下がります（階段を細かくして真の関数に近づける）。
バリアンス：訓練データが変わったときの予測のブレ。同じ手法で別のデータセットを使って訓練し直すと、どれくらい結果が変わるかという性質。木を深くすると、バリアンスが上がります（データのちょっとしたノイズで階段の形が大きく変わる）。

このバイアスとバリアンスのトレードオフこそ、決定木の最大の課題なのです。

ブースティングという解決策、そしてその代償

決定木のたった一つの弱点を、見事に克服する方法があります。それがブースティングです。

ブースティングは、「浅い木をたくさん作って、少しずつ足し合わせる」というアイデアです。 1本目の木が苦手としたデータには、2本目の木がより重点的に取り組む。 3本目はさらにその残差に注目する。こうして、多数の弱い学習器が補い合いながら、滑らかで正確な予測関数を作り上げます。

ブースティングで階段状の境界が滑らかになるアニメーション — 薄緑が個々の木の境界。重ね合わさると黄色の滑らかな境界が浮かび上がる

上の図では、薄い緑の線が個々の決定木の予測境界、黄色い線が多数の木を足し合わせた結果です。それぞれの木はバラバラな「カクカク」をしていますが、重ね合わせると赤い点線（真の境界）に近い滑らかな曲線が浮かび上がります。

ブースティングの予測関数を式で表すと：

f_{\text{boost}}(x) = \sum_{b=1}^{B} \nu \cdot T_b(x)

ここで、 $$T_b(x)$$ は $$b$$ 番目の木、 $\nu$ は学習率（典型的には 0.01〜0.1）、 $$B$$ は木の本数です。階段関数を多数足し合わせることで、より滑らかな関数を近似できます。これは、フーリエ級数で複雑な波形を表現するのと似た思想です。

驚くべきことに、ブースティングは決定木のすべての長所をほぼそのまま受け継ぎながら、唯一の弱点（精度）だけを劇的に改善します。そして予測精度は、ニューラルネットやSVMに肩を並べる、あるいは凌駕するレベルになります。

ただし、代償があります。

1. 解釈性の喪失：1本の木なら「年齢>30 → 年収>500万 → 購入」と説明できますが、 1000本の木を加算した結果は、もはや人間には読めません。
2. 計算量の増大：1本の木の計算量を $$B$$ 倍する必要があります。 500本の木を作るなら、計算時間も約500倍です。

それでも、多くの実務家がブースティングを選ぶ理由は明確です。「精度の問題が最大の課題で、解釈は後付けでもいい」場面が圧倒的に多いからです。 XGBoost や LightGBM といった現代の勾配ブースティングライブラリが事実上の業界標準になっているのは、この「決定木の良さを保ちながら精度を取り戻す」という設計哲学が、現場のニーズと完璧に一致しているからなのです。

完璧な手法はない — そして、それでいい

このページの旅を振り返ってみましょう。

私たちは「現場のデータは厄介」という現実から出発し、 9つの観点で代表的な手法を比較しました。そして、決定木がほぼすべての観点で優れている一方、予測精度だけが弱いという非対称なプロファイルを持つことを発見しました。そしてブースティングが、その弱点を克服する仕組みであることを見ました。

手法と問題特性のマッチングを行列で表すアニメーション — 緑=強い、黄=普通、赤=弱い。決定木の行（黄枠）が際立つ。最後に赤いセルが青矢印で緑に変わる

上の行列では、各行が手法、各列が問題の特性を表しています。決定木の行（黄色の枠）は緑が多く揃っていますが、1つだけ赤いセル（予測精度）が残っています。そこにブースティングの矢印が向かい、赤が緑に変わる — これがこのページ全体の要約です。

ここで重要なメッセージがあります。「すべての観点で最高の手法」は存在しません。それぞれの手法には設計思想があり、その思想ゆえの強みと弱みがあります。データサイエンティストの仕事は、「目の前の問題の特性」と「手法の特性」を照らし合わせ、最適な選択をすることです。

実は、決定木とブースティングの組み合わせ（GBM, XGBoost, LightGBM）が現代のデータマイニングで圧倒的に使われている理由も、ここにあります。「実務で出会う問題の特性」と「決定木+ブースティングの特性」が、奇跡的なまでに一致しているのです。

次のセクション（10.8）では、この理論的な議論を実際のデータ（Spam分類）で検証していきます。理論と実践がどう対応するのかを、一緒に見ていきましょう。