7.4 訓練誤差の楽観性と情報量規準

前章では「モデルが複雑になるほど訓練誤差は下がるが、真の性能は劣化する」というバイアス・バリアンス分解を学んだ。

今章では一歩踏み込み、「訓練誤差がどれだけ信用できないのか」を数値として定量化する。この「楽観性」という概念が、AICなどのモデル選択手法の基礎になっている。

訓練誤差はなぜ信用できないのか

テストを自分で作って自分で解いたら、当然高得点が取れる。これは「勉強ができる」ことではなく、「問題を知っている」だけだ。

機械学習のモデルも同じ問題を抱えている。訓練データでモデルを学習し、同じ訓練データで性能を測ると、モデルはすでに「答えを知っている」状態で採点されることになる。

これを訓練誤差の楽観性と呼ぶ。訓練誤差は、本当の汎化性能より必ず「良く見える」。

楽観性を正確に理解するために、3つの異なる誤差を区別して考えよう：

訓練誤差（err）: 訓練データそのもので測った誤差。モデルが「答えを知っている」状態での採点。
インサンプル誤差（Err_in）: 訓練データと同じ入力点 $x_1, \ldots, x_N$ を使うが、新しく集めた応答値で測る誤差。入力の場所は同じでも、採点データは独立。
汎化誤差（Err）: 入力も応答も完全に新しいデータで測った真の誤差。

なぜ「インサンプル誤差」という中間的な概念が必要なのか？訓練誤差と汎化誤差を直接比較すると、入力 $$x$$ も応答 $$y$$ も両方変わってしまうため、差が複雑になる。インサンプル誤差は「 $$x$$ だけ固定して $$y$$ を新しくする」という工夫で、楽観性を扱いやすい形で表せるようにしてくれる。

楽観性を数式で捉える

「楽観的すぎる」というのは定性的な感覚だが、これを数式で厳密に定義できる。

楽観性（op）を次のように定義する：

\text{op} = \text{Err}_{\text{in}} - \overline{\text{err}}

インサンプル誤差と訓練誤差の差がまさに楽観性だ。この値は通常正（プラス）になる。つまり、訓練誤差はインサンプル誤差よりも小さく見える。

さらに、この楽観性の期待値（平均楽観性 ω）を考える：

\omega = \mathbb{E}_{\mathbf{y}}[\text{op}]

これは何度も訓練データをサンプリングした場合の楽観性の平均だ。

実は、この平均楽観性には驚くほどエレガントな表現がある：

\omega = \frac{2}{N} \sum_{i=1}^{N} \text{Cov}(\hat{y}_i, y_i)

ここで Cov（共分散）とは、2つの量が「一緒に動く度合い」のことだ。 $\text{Cov}(\hat{y}_i, y_i) > 0$ なら、 $$y_i$$ が大きいときに $\hat{y}_i$ も大きくなる傾向がある。

つまり、平均楽観性 = 予測値 $\hat{y}_i$ と実測値 $$y_i$$ が「一緒に動く強さ」の平均だ。

この式が示す本質：訓練データの点 $$y_i$$ がその点の予測 $\hat{y}_i$ に強く影響を与えるほど、楽観性は大きくなる。当然、モデルは訓練データに「合わせて」いるので、この共分散は正になりやすい。

まとめると、以下の基本関係式が成り立つ：

\mathbb{E}_{\mathbf{y}}[\text{Err}_{\text{in}}] = \mathbb{E}_{\mathbf{y}}[\overline{\text{err}}] + \frac{2}{N} \sum_{i=1}^{N} \text{Cov}(\hat{y}_i, y_i)

インサンプル誤差の期待値 = 訓練誤差の期待値 + 楽観性補正。これが基本関係式だ。

モデルの複雑さと楽観性の関係

楽観性の公式 $\omega = \frac{2}{N} \sum_{i=1}^{N} \text{Cov}(\hat{y}_i, y_i)$ は一般的だが、特定のモデルクラスでは具体的な値を計算できる。

加法ノイズモデル $Y = f(X) + \varepsilon$ （ $\varepsilon$ は独立ノイズ）と2乗誤差損失を仮定すると：

\sum_{i=1}^{N} \text{Cov}(\hat{y}_i, y_i) = d \cdot \sigma_\varepsilon^2

ここで $$d$$ はモデルのパラメータ数（複雑さ）、 $\sigma_\varepsilon^2$ はノイズの分散。

これを代入すると：

\omega = \frac{2d}{N} \sigma_\varepsilon^2

この結果から二つの重要な洞察が得られる：

洞察1 - 複雑なモデルほど楽観的：パラメータ数 $$d$$ が大きいほど楽観性 $\omega$ が大きい。複雑なモデルは訓練データに強く「適合しすぎ」て、楽観性が膨らむ。これは過学習の本質だ。

洞察2 - 多くのデータは楽観性を減らす：サンプル数 $$N$$ が大きいほど楽観性 $\omega$ が小さい。大量のデータがあれば、1つの点が予測全体に与える影響が薄まる。

「複雑さ」と「データ量」のバランスが楽観性の大きさを決める。バイアス・バリアンスのトレードオフの背後にある本質がここにある。

AICとCp - 楽観性を補正してモデルを選ぶ

Section 3 で楽観性 $\omega$ を定量化できた。これは逆に言えば、訓練誤差に楽観性を加えることで、インサンプル誤差を推定できるということだ。

\widehat{\text{Err}}_{\text{in}} = \overline{\text{err}} + \hat{\omega}

この推定値を複数のモデルで計算して比較すれば、真の性能に近い形でモデルを選べる。

Cp統計量（マロウのCp）は、2乗誤差での楽観性補正そのものだ：

C_p = \overline{\text{err}} + \frac{2d}{N}\hat{\sigma}_\varepsilon^2

$$d$$ 個のパラメータを持つモデルに対して、複雑さに比例したペナルティを加える。

しかし、線形回帰以外のモデル（例えば分類問題のロジスティック回帰）では、2乗誤差ではなく対数尤度を使う。そのような場合の楽観性補正が AIC（赤池情報量規準）だ：

\text{AIC} = -\frac{2}{N} \log \text{lik} + \frac{2d}{N}

第1項（ $-\frac{2}{N} \log \text{lik}$ ）：モデルの適合の良さ（対数尤度が大きいほど小さい値になる）
第2項（ $\frac{2d}{N}$ ）：モデルの複雑さへのペナルティ（ $$d$$ が大きいほど大きくなる）

AICを最小化するモデルが最適として選ばれる。「どれだけデータにフィットしているか」と「どれだけシンプルか」のバランスで勝者を決める、というイメージだ。

より一般的な形として、複雑さパラメータ $\alpha$ （スムージングパラメータなど）を使ったAICは：

\text{AIC}(\alpha) = \overline{\text{err}}(\alpha) + \frac{2d(\alpha)}{N}\hat{\sigma}_\varepsilon^2

$\alpha$ はモデルの複雑さパラメータ。これを最小にする $\alpha$ が最適なモデルの複雑さとして選ばれる。

まとめと限界

訓練誤差の楽観性を「定量化できる量」として捉えることで、モデル評価の景色が変わる。

重要な洞察をまとめると：

訓練誤差は常に楽観的 - 使ったデータで測るから、必ず良く見える
楽観性 = 予測と実測の共分散 - 「データが自分の予測を引き寄せる力」の合計
複雑なモデル = 高い楽観性 - パラメータ数 $$d$$ に比例して楽観性が増す
AIC/Cpは楽観性の補正 - 訓練誤差に適切なペナルティを加えてモデルを比較する

AICとCpの限界：

これらの手法はモデルのパラメータが事前に固定されている場合に正確に機能する。しかし、適応的な変数選択（例：データを見ながら「有望な変数だけ」を選ぶ手法）を使う場合、有効パラメータ数が実際に選ばれた数より多くなり、楽観性を過小評価してしまう。

このような制限を超えるために、次のセクションではクロスバリデーションとブートストラップを学ぶ。これらは楽観性を「推定」するのではなく、真の汎化誤差を直接「測る」アプローチだ。より汎用的で、適応的な手法にも対応できる。