2.4 統計的決定理論 — 「最良の予測」とは何か？

最小二乗法もk-NNも「データから予測する」手法だが、なぜそれらが「良い」のか？この章では、予測問題を数学的に厳密に定式化し、理論的に最良の予測器を導出する。その答えは驚くほど自然で、かつ深い意味を持つ。

問い — 「良い予測」とは何か？

前の章で最小二乗法とk-最近傍法を学んだ。どちらも「データから予測する」手法だが、なぜこれらが良い予測器と言えるのか、誰も説明していなかった。

「良い」の定義が必要だ。

たとえば、明日の気温を予測するとしよう。「実際の気温が18℃のとき、15℃と予測した」のと「25℃と予測した」のとでは、後者の方が「ひどい失敗」だ。誤差が大きいほど悪い。これは誰でも直感的にわかる。

予測値と実際値の誤差が大きくなるほど損失が非線形に増加する様子 — 予測値（青点）が実際値（黄点）から離れるほど、損失（緑の曲線上の点）が急速に増大する

この直感を数式にしたものが損失関数（Loss Function）だ。最も一般的な選択は二乗誤差：

$$L(Y, f(X)) = (Y - f(X))^2$$

なぜ二乗？理由の一つは「大きな誤差を特に重く罰する」こと。誤差が2倍になれば損失は4倍になる。もう一つの理由は、数学的に扱いやすいこと（微分できる）。

損失関数が決まれば、予測器 $$f(x)$$ の良さをデータ全体への平均損失（期待値）で測れる。確率論の言葉では、これを期待予測誤差（EPE: Expected Prediction Error）と言う：

\text{EPE}(f) = E\left[(Y - f(X))^2\right]

$E[\cdots]$ は「期待値」の記号で、「すべての入力・出力の組み合わせにわたる平均」という意味だ。この期待値を最小にする $$f(x)$$ が「理論的に最良の予測器」だ。

EPEは積分で書き直すこともできる：

\text{EPE}(f) = E\left[(Y - f(X))^2\right] = \int [y - f(x)]^2 \, \Pr(dx, dy)

これは「すべての $$(x, y)$$ の組み合わせにわたって、確率 $\Pr(dx, dy)$ で重み付けした平均二乗誤差」を意味する。

答え — 条件付き期待値が最良

EPEを最小化する $$f(x)$$ はどれか？鍵となるのは「各点 $$x$$ で独立に最適化できる」という観察だ。

まずEPEを書き直す。 $$X$$ の値ごとに条件付けして：

\text{EPE}(f) = E_X \left[ E_{Y|X}\left[(Y - f(X))^2 \,\bigg|\, X\right] \right]

積分の外側（ $$X$$ に関する期待値）は $$f$$ の選び方に影響されない。だから、各点 $$x$$ で内側の条件付き期待値を最小化すれば良い：

f(x) = \arg\min_c \, E_{Y|X}\left[(Y - c)^2 \,\bigg|\, X = x\right]

これを $$c$$ について解くと、驚くほど単純な答えが出る：

f(x) = E(Y \mid X = x)

散布図上で縦線が移動し、各x位置での条件付き期待値（回帰関数）が描かれる — 縦線（白）の位置で選ばれた近傍の点（黄）の平均が条件付き期待値。縦線を動かすと回帰関数（オレンジ）が描かれる

条件付き期待値が最良の予測器だ。つまり、ある入力 $$x$$ が与えられたとき、対応する出力 $$Y$$ の平均値を予測するのが理論的に最も良い。

この $$E(Y|X = x)$$ を回帰関数（Regression Function）と呼ぶ。「回帰」という言葉の本来の意味は、まさにこの「条件付き期待値を推定すること」だ。

直感的に考えると：ある身長の人に対して体重を予測するなら、「その身長の人全員の体重の平均」が最も二乗誤差を小さくする予測だ。これがまさに条件付き期待値 $E(\text{体重}|\text{身長}=x)$ の意味。

理想と現実 — k-NNと線形モデルの役割

理論的には $$f(x) = E(Y|X=x)$$ が最良とわかった。しかし、ここで現実の壁にぶつかる。

真の条件付き期待値 $$E(Y|X=x)$$ は計算できない。なぜなら、私たちが知っているのは有限個の観測データだけで、真の確率分布 $\Pr(X, Y)$ は未知だからだ。

観測データから $$E(Y|X=x)$$ を近似するしかない。この近似に、まったく異なる哲学を持つ2つのアプローチが存在する。

左パネルのk-NNは局所的な近傍で曲がれる曲線を作り、右パネルの線形モデルはグローバルな直線を引く — 左：k-NNは局所的な近傍（円）を使った「曲がれる」近似。右：線形モデルはグローバルな直線による近似

k-最近傍法（k-NN）のアプローチ

\hat{f}(x) = \frac{1}{k} \sum_{x_i \in N_k(x)} y_i

これは「期待値」を「近くの点の平均」で近似し、「 $$X=x$$ という条件」を「 $$x$$ の近傍という条件」で緩める。 2重の近似だが、データが十分あれば回帰関数に収束する。

k-NNの哲学：仮定なし、データに語らせる。柔軟だが不安定になりやすい。

線形モデルのアプローチ

f(x) \approx x^T \beta, \quad \hat{\beta} = (X^TX)^{-1}X^Ty

「回帰関数は線形で近似できる」という強い仮定を置く。仮定が正しければ少ないデータで精度の高い推定ができる。仮定が間違っていれば精度が悪くなる（バイアスが生じる）。

線形モデルの哲学：強い仮定、構造を押し付ける。安定だが制限あり。

手法	仮定	強み	弱み
k-NN	ほぼなし	柔軟、非線形も捉える	高次元で苦手、不安定
線形モデル	線形性	安定、解釈しやすい	非線形を捉えられない

この2つのアプローチは「理想的な回帰関数 $$E(Y|X=x)$$ への近似方法」の対極にある。どちらが良いかはデータの構造次第だ。

分類問題への拡張 — ベイズ分類器

ここまでは「出力 $$Y$$ が連続値」の回帰問題を扱ってきた。「 $$Y$$ がカテゴリ（クラス）」の分類問題にも同じフレームワークが適用できる。

分類では損失関数として0-1損失が自然だ：

正しく分類：損失 = 0

間違って分類：損失 = 1

EPEを最小化すると、最適な分類器は：

\hat{G}(x) = \arg\max_{g \in \mathcal{G}} \Pr(G = g \mid X = x)

つまり、その入力 $$x$$ に対して最も確率の高いクラスを選べ、というシンプルな答えだ。

2クラス散布図に確率のグラデーション背景が加わり、50%ラインが決定境界として浮かび上がる — 背景のグラデーションは各点での条件付き確率 Pr(クラス|x) を表す。白い境界線（50%ライン）がベイズ最適決定境界

これをベイズ分類器（Bayes Classifier）と呼ぶ。ベイズ分類器が達成する誤り率をベイズ誤り率と言い、理論的な下限となる。

重要な事実：どんな分類手法も、真の確率分布を完全に知っていればベイズ誤り率より良くはなれない。これは機械学習の理論的な「壁」だ。

実際には真の $\Pr(G=g|X=x)$ はわからないので、 k-NNや他の手法でこれを推定することになる。たとえばk-NNは：

\hat{\Pr}(G=g|X=x) = \frac{\text{近傍k点のうちクラス}g\text{の数}}{k}

というシンプルな推定を行っている。回帰でk-NNが $$E(Y|X=x)$$ を推定したのと同じ発想だ。

理論の意味 — なぜこれが重要か

統計的決定理論が示したことをまとめよう。この理論は単なる「数学的な遊び」ではない。すべての機械学習手法の理論的基盤になっている。

損失関数からEPE最小化、そして回帰と分類の理論的最良解へとつながるフロー図 — 損失関数を設計し、それを最小化する。この単純なフレームワークから回帰（条件付き期待値）と分類（ベイズ分類器）が導かれる

回帰問題の理論的答え：最良の予測は

$E(Y|X=x)$

— 条件付き期待値

分類問題の理論的答え：最良の予測は最大事後確率クラス — ベイズ分類器

現実の手法の位置づけ：k-NNや線形モデルは、この理論的目標を異なる方法で近似している

これからの章で学ぶすべての機械学習手法は、「どうやって $$E(Y|X=x)$$ をうまく推定するか」という問いへの異なる答えだ。ある手法は「構造的仮定」で安定性を得る。別の手法は「複雑な非線形性」も捉えようとする。

この軸で手法を比べることができる — そしてこれが、この理論を学ぶ最大の理由だ。

損失関数の選択と最適予測器の対応

二乗誤差だけが損失関数ではない。様々な損失関数に対して同様の分析ができ、それぞれに最適な予測器が導かれる：

損失関数	最適な予測器
二乗誤差 $$(Y-f)^2$$	条件付き平均 $$E(Y\|X=x)$$
絶対値誤差 $$\|Y-f\|$$	条件付き中央値
0-1損失（分類）	最大事後確率クラス（ベイズ分類器）

まとめ

統計的決定理論は、機械学習の理論的基盤を提供する。

損失関数で「良さ」を定義する

予測問題は「損失関数を最小化する最適な関数 $$f(x)$$ を見つける」問題として定式化できる。

回帰の理論的最良解は条件付き期待値

二乗誤差損失の場合、答えは $$f(x) = E(Y|X=x)$$ 。これを回帰関数と呼ぶ。

分類の理論的最良解はベイズ分類器

0-1損失の場合、答えは最大事後確率クラス。これがどんな手法も超えられない理論的下限を与える。

実際の手法はすべてこの理想の近似

k-NNは局所平均で、線形モデルは構造的仮定で、それぞれ異なる方法で $$E(Y|X=x)$$ を近似している。

次章（2.5節）では、この理論的枠組みのもとで「次元の呪い」という重要な現象を理解する。高次元になると、なぜ局所的な近似が難しくなるのか。 $$E(Y|X=x)$$ という目標は変わらないが、近似の難しさは次元とともに爆発的に増大する。