2.4 統計的決定理論 — 「最良の予測」とは何か?
最小二乗法もk-NNも「データから予測する」手法だが、なぜそれらが「良い」のか? この章では、予測問題を数学的に厳密に定式化し、理論的に最良の予測器を導出する。 その答えは驚くほど自然で、かつ深い意味を持つ。
問い — 「良い予測」とは何か?
前の章で最小二乗法とk-最近傍法を学んだ。どちらも「データから予測する」手法だが、なぜこれらが良い予測器と言えるのか、誰も説明していなかった。
「良い」の定義が必要だ。
たとえば、明日の気温を予測するとしよう。「実際の気温が18℃のとき、15℃と予測した」のと 「25℃と予測した」のとでは、後者の方が「ひどい失敗」だ。誤差が大きいほど悪い。 これは誰でも直感的にわかる。

この直感を数式にしたものが損失関数(Loss Function)だ。 最も一般的な選択は二乗誤差:
なぜ二乗?理由の一つは「大きな誤差を特に重く罰する」こと。誤差が2倍になれば損失は4倍になる。 もう一つの理由は、数学的に扱いやすいこと(微分できる)。
損失関数が決まれば、予測器 $f(x)$ の良さをデータ全体への平均損失(期待値)で測れる。 確率論の言葉では、これを期待予測誤差(EPE: Expected Prediction Error)と言う:
$E[\cdots]$ は「期待値」の記号で、「すべての入力・出力の 組み合わせにわたる平均」という意味だ。 この期待値を最小にする $f(x)$ が「理論的に最良の予測器」だ。
EPEは積分で書き直すこともできる:
これは「すべての $(x, y)$ の組み合わせにわたって、 確率 $\Pr(dx, dy)$ で重み付けした平均二乗誤差」を意味する。
答え — 条件付き期待値が最良
EPEを最小化する $f(x)$ はどれか? 鍵となるのは「各点 $x$ で独立に最適化できる」という観察だ。
まずEPEを書き直す。$X$ の値ごとに条件付けして:
積分の外側($X$ に関する期待値)は$f$ の選び方に影響されない。 だから、各点 $x$ で内側の条件付き期待値を最小化すれば良い:
これを $c$ について解くと、驚くほど単純な答えが出る:

条件付き期待値が最良の予測器だ。 つまり、ある入力 $x$ が与えられたとき、 対応する出力 $Y$ の平均値を予測するのが理論的に最も良い。
この $E(Y|X = x)$ を回帰関数(Regression Function)と呼ぶ。 「回帰」という言葉の本来の意味は、まさにこの「条件付き期待値を推定すること」だ。
直感的に考えると:ある身長の人に対して体重を予測するなら、 「その身長の人全員の体重の平均」が最も二乗誤差を小さくする予測だ。 これがまさに条件付き期待値 $E(\text{体重}|\text{身長}=x)$ の意味。
理想と現実 — k-NNと線形モデルの役割
理論的には $f(x) = E(Y|X=x)$ が最良とわかった。 しかし、ここで現実の壁にぶつかる。
真の条件付き期待値 $E(Y|X=x)$ は計算できない。 なぜなら、私たちが知っているのは有限個の観測データだけで、 真の確率分布 $\Pr(X, Y)$ は未知だからだ。
観測データから $E(Y|X=x)$ を近似するしかない。 この近似に、まったく異なる哲学を持つ2つのアプローチが存在する。

k-最近傍法(k-NN)のアプローチ
これは「期待値」を「近くの点の平均」で近似し、 「$X=x$ という条件」を「$x$ の近傍という条件」で緩める。 2重の近似だが、データが十分あれば回帰関数に収束する。
k-NNの哲学:仮定なし、データに語らせる。柔軟だが不安定になりやすい。
線形モデルのアプローチ
「回帰関数は線形で近似できる」という強い仮定を置く。 仮定が正しければ少ないデータで精度の高い推定ができる。 仮定が間違っていれば精度が悪くなる(バイアスが生じる)。
線形モデルの哲学:強い仮定、構造を押し付ける。安定だが制限あり。
| 手法 | 仮定 | 強み | 弱み |
|---|---|---|---|
| k-NN | ほぼなし | 柔軟、非線形も捉える | 高次元で苦手、不安定 |
| 線形モデル | 線形性 | 安定、解釈しやすい | 非線形を捉えられない |
この2つのアプローチは「理想的な回帰関数 $E(Y|X=x)$ への近似方法」の 対極にある。どちらが良いかはデータの構造次第だ。
分類問題への拡張 — ベイズ分類器
ここまでは「出力 $Y$ が連続値」の回帰問題を扱ってきた。 「$Y$ がカテゴリ(クラス)」の分類問題にも同じフレームワークが適用できる。
分類では損失関数として0-1損失が自然だ:
EPEを最小化すると、最適な分類器は:
つまり、その入力 $x$ に対して最も確率の高いクラスを選べ、 というシンプルな答えだ。

これをベイズ分類器(Bayes Classifier)と呼ぶ。 ベイズ分類器が達成する誤り率をベイズ誤り率と言い、理論的な下限となる。
重要な事実:どんな分類手法も、真の確率分布を完全に知っていれば ベイズ誤り率より良くはなれない。これは機械学習の理論的な「壁」だ。
実際には真の $\Pr(G=g|X=x)$ はわからないので、 k-NNや他の手法でこれを推定することになる。たとえばk-NNは:
というシンプルな推定を行っている。 回帰でk-NNが $E(Y|X=x)$ を推定したのと同じ発想だ。
理論の意味 — なぜこれが重要か
統計的決定理論が示したことをまとめよう。 この理論は単なる「数学的な遊び」ではない。すべての機械学習手法の理論的基盤になっている。

これからの章で学ぶすべての機械学習手法は、「どうやって $E(Y|X=x)$ をうまく推定するか」 という問いへの異なる答えだ。 ある手法は「構造的仮定」で安定性を得る。別の手法は「複雑な非線形性」も捉えようとする。
この軸で手法を比べることができる — そしてこれが、この理論を学ぶ最大の理由だ。
損失関数の選択と最適予測器の対応
二乗誤差だけが損失関数ではない。様々な損失関数に対して同様の分析ができ、 それぞれに最適な予測器が導かれる:
| 損失関数 | 最適な予測器 |
|---|---|
| 二乗誤差 $(Y-f)^2$ | 条件付き平均 $E(Y|X=x)$ |
| 絶対値誤差 $|Y-f|$ | 条件付き中央値 |
| 0-1損失(分類) | 最大事後確率クラス(ベイズ分類器) |
まとめ
統計的決定理論は、機械学習の理論的基盤を提供する。
予測問題は「損失関数を最小化する最適な関数 $f(x)$ を見つける」問題として定式化できる。
二乗誤差損失の場合、答えは $f(x) = E(Y|X=x)$。これを回帰関数と呼ぶ。
0-1損失の場合、答えは最大事後確率クラス。これがどんな手法も超えられない理論的下限を与える。
k-NNは局所平均で、線形モデルは構造的仮定で、それぞれ異なる方法で$E(Y|X=x)$ を近似している。