前章では「モデルが複雑になるほど訓練誤差は下がるが、真の性能は劣化する」というバイアス・バリアンス分解を学んだ。
今章では一歩踏み込み、「訓練誤差がどれだけ信用できないのか」を数値として定量化する。この「楽観性」という概念が、AICなどのモデル選択手法の基礎になっている。
テストを自分で作って自分で解いたら、当然高得点が取れる。これは「勉強ができる」ことではなく、「問題を知っている」だけだ。
機械学習のモデルも同じ問題を抱えている。訓練データでモデルを学習し、同じ訓練データで性能を測ると、モデルはすでに「答えを知っている」状態で採点されることになる。

これを訓練誤差の楽観性と呼ぶ。訓練誤差は、本当の汎化性能より必ず「良く見える」。
楽観性を正確に理解するために、3つの異なる誤差を区別して考えよう:
なぜ「インサンプル誤差」という中間的な概念が必要なのか?訓練誤差と汎化誤差を直接比較すると、入力$x$も応答$y$も両方変わってしまうため、差が複雑になる。インサンプル誤差は「$x$だけ固定して$y$を新しくする」という工夫で、楽観性を扱いやすい形で表せるようにしてくれる。
「楽観的すぎる」というのは定性的な感覚だが、これを数式で厳密に定義できる。
楽観性(op)を次のように定義する:
インサンプル誤差と訓練誤差の差がまさに楽観性だ。この値は通常正(プラス)になる。つまり、訓練誤差はインサンプル誤差よりも小さく見える。
さらに、この楽観性の期待値(平均楽観性 ω)を考える:
これは何度も訓練データをサンプリングした場合の楽観性の平均だ。

実は、この平均楽観性には驚くほどエレガントな表現がある:
ここで Cov(共分散)とは、2つの量が「一緒に動く度合い」のことだ。$\text{Cov}(\hat{y}_i, y_i) > 0$なら、$y_i$が大きいときに$\hat{y}_i$も大きくなる傾向がある。
つまり、平均楽観性 = 予測値$\hat{y}_i$と実測値$y_i$が「一緒に動く強さ」の平均だ。
この式が示す本質:訓練データの点$y_i$がその点の予測$\hat{y}_i$に強く影響を与えるほど、楽観性は大きくなる。当然、モデルは訓練データに「合わせて」いるので、この共分散は正になりやすい。
まとめると、以下の基本関係式が成り立つ:
インサンプル誤差の期待値 = 訓練誤差の期待値 + 楽観性補正。これが基本関係式だ。
楽観性の公式$\omega = \frac{2}{N} \sum_{i=1}^{N} \text{Cov}(\hat{y}_i, y_i)$は一般的だが、特定のモデルクラスでは具体的な値を計算できる。
加法ノイズモデル$Y = f(X) + \varepsilon$($\varepsilon$は独立ノイズ)と2乗誤差損失を仮定すると:
ここで$d$はモデルのパラメータ数(複雑さ)、$\sigma_\varepsilon^2$はノイズの分散。
これを代入すると:

この結果から二つの重要な洞察が得られる:
洞察1 - 複雑なモデルほど楽観的:パラメータ数$d$が大きいほど楽観性$\omega$が大きい。複雑なモデルは訓練データに強く「適合しすぎ」て、楽観性が膨らむ。これは過学習の本質だ。
洞察2 - 多くのデータは楽観性を減らす:サンプル数$N$が大きいほど楽観性$\omega$が小さい。大量のデータがあれば、1つの点が予測全体に与える影響が薄まる。
「複雑さ」と「データ量」のバランスが楽観性の大きさを決める。バイアス・バリアンスのトレードオフの背後にある本質がここにある。
Section 3 で楽観性$\omega$を定量化できた。これは逆に言えば、訓練誤差に楽観性を加えることで、インサンプル誤差を推定できるということだ。
この推定値を複数のモデルで計算して比較すれば、真の性能に近い形でモデルを選べる。
Cp統計量(マロウのCp)は、2乗誤差での楽観性補正そのものだ:
$d$個のパラメータを持つモデルに対して、複雑さに比例したペナルティを加える。
しかし、線形回帰以外のモデル(例えば分類問題のロジスティック回帰)では、2乗誤差ではなく対数尤度を使う。そのような場合の楽観性補正が AIC(赤池情報量規準)だ:

AICを最小化するモデルが最適として選ばれる。「どれだけデータにフィットしているか」と「どれだけシンプルか」のバランスで勝者を決める、というイメージだ。
より一般的な形として、複雑さパラメータ$\alpha$(スムージングパラメータなど)を使ったAICは:
$\alpha$はモデルの複雑さパラメータ。これを最小にする$\alpha$が最適なモデルの複雑さとして選ばれる。
訓練誤差の楽観性を「定量化できる量」として捉えることで、モデル評価の景色が変わる。

重要な洞察をまとめると:
AICとCpの限界:
これらの手法はモデルのパラメータが事前に固定されている場合に正確に機能する。しかし、適応的な変数選択(例:データを見ながら「有望な変数だけ」を選ぶ手法)を使う場合、有効パラメータ数が実際に選ばれた数より多くなり、楽観性を過小評価してしまう。
このような制限を超えるために、次のセクションではクロスバリデーションとブートストラップを学ぶ。これらは楽観性を「推定」するのではなく、真の汎化誤差を直接「測る」アプローチだ。より汎用的で、適応的な手法にも対応できる。