7.4 訓練誤差の楽観性と情報量規準

前章では「モデルが複雑になるほど訓練誤差は下がるが、真の性能は劣化する」というバイアス・バリアンス分解を学んだ。

今章では一歩踏み込み、「訓練誤差がどれだけ信用できないのか」を数値として定量化する。この「楽観性」という概念が、AICなどのモデル選択手法の基礎になっている。

訓練誤差はなぜ信用できないのか

テストを自分で作って自分で解いたら、当然高得点が取れる。これは「勉強ができる」ことではなく、「問題を知っている」だけだ。

機械学習のモデルも同じ問題を抱えている。訓練データでモデルを学習し、同じ訓練データで性能を測ると、モデルはすでに「答えを知っている」状態で採点されることになる。

訓練データへの過適合と新データへの性能差を示すアニメーション

これを訓練誤差の楽観性と呼ぶ。訓練誤差は、本当の汎化性能より必ず「良く見える」。

楽観性を正確に理解するために、3つの異なる誤差を区別して考えよう:

なぜ「インサンプル誤差」という中間的な概念が必要なのか?訓練誤差と汎化誤差を直接比較すると、入力$x$も応答$y$も両方変わってしまうため、差が複雑になる。インサンプル誤差は「$x$だけ固定して$y$を新しくする」という工夫で、楽観性を扱いやすい形で表せるようにしてくれる。

楽観性を数式で捉える

「楽観的すぎる」というのは定性的な感覚だが、これを数式で厳密に定義できる。

楽観性(op)を次のように定義する:

$$\text{op} = \text{Err}_{\text{in}} - \overline{\text{err}}$$

インサンプル誤差と訓練誤差の差がまさに楽観性だ。この値は通常正(プラス)になる。つまり、訓練誤差はインサンプル誤差よりも小さく見える。

さらに、この楽観性の期待値(平均楽観性 ω)を考える:

$$\omega = \mathbb{E}_{\mathbf{y}}[\text{op}]$$

これは何度も訓練データをサンプリングした場合の楽観性の平均だ。

予測値と実測値の共分散が楽観性を生む様子を示すアニメーション

実は、この平均楽観性には驚くほどエレガントな表現がある:

$$\omega = \frac{2}{N} \sum_{i=1}^{N} \text{Cov}(\hat{y}_i, y_i)$$

ここで Cov(共分散)とは、2つの量が「一緒に動く度合い」のことだ。$\text{Cov}(\hat{y}_i, y_i) > 0$なら、$y_i$が大きいときに$\hat{y}_i$も大きくなる傾向がある。

つまり、平均楽観性 = 予測値$\hat{y}_i$と実測値$y_i$が「一緒に動く強さ」の平均だ。

この式が示す本質:訓練データの点$y_i$がその点の予測$\hat{y}_i$に強く影響を与えるほど、楽観性は大きくなる。当然、モデルは訓練データに「合わせて」いるので、この共分散は正になりやすい。

まとめると、以下の基本関係式が成り立つ:

$$\mathbb{E}_{\mathbf{y}}[\text{Err}_{\text{in}}] = \mathbb{E}_{\mathbf{y}}[\overline{\text{err}}] + \frac{2}{N} \sum_{i=1}^{N} \text{Cov}(\hat{y}_i, y_i)$$

インサンプル誤差の期待値 = 訓練誤差の期待値 + 楽観性補正。これが基本関係式だ。

モデルの複雑さと楽観性の関係

楽観性の公式$\omega = \frac{2}{N} \sum_{i=1}^{N} \text{Cov}(\hat{y}_i, y_i)$は一般的だが、特定のモデルクラスでは具体的な値を計算できる。

加法ノイズモデル$Y = f(X) + \varepsilon$$\varepsilon$は独立ノイズ)と2乗誤差損失を仮定すると:

$$\sum_{i=1}^{N} \text{Cov}(\hat{y}_i, y_i) = d \cdot \sigma_\varepsilon^2$$

ここで$d$はモデルのパラメータ数(複雑さ)、$\sigma_\varepsilon^2$はノイズの分散。

これを代入すると:

$$\omega = \frac{2d}{N} \sigma_\varepsilon^2$$
パラメータ数dと楽観性ωの関係を示すアニメーション

この結果から二つの重要な洞察が得られる:

洞察1 - 複雑なモデルほど楽観的:パラメータ数$d$が大きいほど楽観性$\omega$が大きい。複雑なモデルは訓練データに強く「適合しすぎ」て、楽観性が膨らむ。これは過学習の本質だ。

洞察2 - 多くのデータは楽観性を減らす:サンプル数$N$が大きいほど楽観性$\omega$が小さい。大量のデータがあれば、1つの点が予測全体に与える影響が薄まる。

「複雑さ」と「データ量」のバランスが楽観性の大きさを決める。バイアス・バリアンスのトレードオフの背後にある本質がここにある。

AICとCp - 楽観性を補正してモデルを選ぶ

Section 3 で楽観性$\omega$を定量化できた。これは逆に言えば、訓練誤差に楽観性を加えることで、インサンプル誤差を推定できるということだ。

$$\widehat{\text{Err}}_{\text{in}} = \overline{\text{err}} + \hat{\omega}$$

この推定値を複数のモデルで計算して比較すれば、真の性能に近い形でモデルを選べる

Cp統計量(マロウのCp)は、2乗誤差での楽観性補正そのものだ:

$$C_p = \overline{\text{err}} + \frac{2d}{N}\hat{\sigma}_\varepsilon^2$$

$d$個のパラメータを持つモデルに対して、複雑さに比例したペナルティを加える。

しかし、線形回帰以外のモデル(例えば分類問題のロジスティック回帰)では、2乗誤差ではなく対数尤度を使う。そのような場合の楽観性補正が AIC(赤池情報量規準)だ:

$$\text{AIC} = -\frac{2}{N} \log \text{lik} + \frac{2d}{N}$$
AICによるモデル選択 - 訓練誤差とAICの対比を示すアニメーション

AICを最小化するモデルが最適として選ばれる。「どれだけデータにフィットしているか」と「どれだけシンプルか」のバランスで勝者を決める、というイメージだ。

より一般的な形として、複雑さパラメータ$\alpha$(スムージングパラメータなど)を使ったAICは:

$$\text{AIC}(\alpha) = \overline{\text{err}}(\alpha) + \frac{2d(\alpha)}{N}\hat{\sigma}_\varepsilon^2$$

$\alpha$はモデルの複雑さパラメータ。これを最小にする$\alpha$が最適なモデルの複雑さとして選ばれる。

まとめと限界

訓練誤差の楽観性を「定量化できる量」として捉えることで、モデル評価の景色が変わる。

楽観性補正の全体像をまとめた矢印フロー図

重要な洞察をまとめると:

  1. 訓練誤差は常に楽観的 - 使ったデータで測るから、必ず良く見える
  2. 楽観性 = 予測と実測の共分散 - 「データが自分の予測を引き寄せる力」の合計
  3. 複雑なモデル = 高い楽観性 - パラメータ数$d$に比例して楽観性が増す
  4. AIC/Cpは楽観性の補正 - 訓練誤差に適切なペナルティを加えてモデルを比較する

AICとCpの限界:

これらの手法はモデルのパラメータが事前に固定されている場合に正確に機能する。しかし、適応的な変数選択(例:データを見ながら「有望な変数だけ」を選ぶ手法)を使う場合、有効パラメータ数が実際に選ばれた数より多くなり、楽観性を過小評価してしまう。

このような制限を超えるために、次のセクションではクロスバリデーションとブートストラップを学ぶ。これらは楽観性を「推定」するのではなく、真の汎化誤差を直接「測る」アプローチだ。より汎用的で、適応的な手法にも対応できる。