7.7 ベイズアプローチとBIC

「どのモデルが正しいのか」を統計的に判断したい。前セクションで学んだAICは「予測精度」を最大化する視点で設計されていた。しかしAICには欠点がある。データが増えても複雑なモデルを選びすぎる傾向があるのだ。

BIC（ベイズ情報量規準）はベイズ統計から自然に生まれた別の基準で、「真のモデルを特定する」という異なる哲学を持つ。このセクションでは、BICがどこから来るのかをベイズの枠組みから理解し、 AICとの本質的な違いを見ていく。

なぜ「確率でモデルを選ぶ」のか

複数のモデル候補がある。線形モデルか、二次モデルか、それとももっと複雑なモデルか。どれが一番「正しい」のか、どう判断すればよいのだろう？

統計学的な答えの一つがベイズ的アプローチだ。考え方はシンプルだ：データ $$Z$$ を観測した後、各モデル $$M_m$$ が「どれだけもっともらしいか」を確率で表す。これをモデルの事後確率という。

アニメーションが示すように、各モデルには「もっともらしさ」という重みがある。天秤が最も重いモデルを選び出す、それがベイズ的モデル選択の本質だ。

\Pr(M_m | Z) \propto \underbrace{\Pr(M_m)}_{\text{事前確率}} \cdot \underbrace{\Pr(Z | M_m)}_{\text{周辺尤度}}

この式を読み解こう：

事前確率 $\Pr(M_m)$ ：データを見る前の、各モデルへの信念。「どのモデルも同じくらい可能性がある」と思うなら、全モデルに同じ値を設定する（一様事前分布）。
周辺尤度 $\Pr(Z | M_m)$ ：モデル $$M_m$$ がデータ $$Z$$ をどれだけよく説明できるかの指標。これが大きいほど「データと相性が良いモデル」だ。

全モデルに同じ事前確率を置けば（一様事前分布）、周辺尤度 $\Pr(Z|M_m)$ が最大のモデルを選べばよい。これがベイズモデル選択の出発点だ。

2つのモデルを比べるときは、その比（ベイズ因子）を使う：

\underbrace{\frac{\Pr(Z | M_m)}{\Pr(Z | M_\ell)}}_{\text{ベイズ因子}}

ベイズ因子が1より大きければ、データは $$M_m$$ の方を支持していることを意味する。1より小さければ $M_\ell$ の勝ちだ。

周辺尤度の計算問題 ─ ラプラス近似の登場

ベイズ的モデル選択では、周辺尤度 $\Pr(Z|M_m)$ を計算することが鍵だ。しかし、ここに大きな問題がある。

周辺尤度を計算するには、モデルのパラメータ $\theta_m$ について積分しなければならない：

\Pr(Z | M_m) = \int \Pr(Z | \theta_m, M_m) \Pr(\theta_m | M_m) \, d\theta_m

この積分が問題だ。ほとんどの場合、数式で書き下せない（解析的に解けない）。数値計算しようとしても、パラメータが多次元になると計算量が爆発する。

そこでラプラス近似という近似手法を使う。アイデアはシンプルだ：「対数尤度の山を、頂上付近で放物線（二次関数）で近似する」。

対数尤度の山型曲線と、その頂上でのガウス（放物線）近似を視覚化するアニメーション

アニメーションが示すように、青い曲線（真の対数尤度）と黄色の放物線（ラプラス近似）は頂上付近でほぼ一致する。頂上から離れるほど誤差が生じるが、積分への寄与は頂上付近が支配的なので、これで十分な近似精度が得られる。

最大尤度推定値 $\hat{\theta}_m$ （山の頂上）のまわりでテイラー展開すると、近似の結果として次の美しい式が得られる：

\log \Pr(Z | M_m) \approx \underbrace{\log \Pr(Z | \hat{\theta}_m, M_m)}_{\text{最大対数尤度（当てはまり）}} - \underbrace{\frac{d_m}{2} \log N}_{\text{複雑さへのペナルティ}}

この式が意味することを読み解こう：

$$d_m$$ ：モデルのパラメータ数（複雑さの指標）
$$N$$ ：データ数
$$O(1)$$ の残差項（定数、N によらない）は無視できる

当てはまりが良いほど（最大対数尤度が大きいほど）良いモデルだが、パラメータが多いほど（複雑なほど）ペナルティを受ける。さらに重要なのは、データが増えるほど（N が大きいほど）複雑さへのペナルティが重くなるという点だ。

これは直感的だ。データが多ければ、モデルが「本当に複雑である必要があるか」をより確実に判断できる。不要な複雑さは厳しく罰する。

BICの定義 ─ ラプラス近似から自然に導出される

前セクションで得られた近似式を振り返ろう：

\log \Pr(Z | M_m) \approx \log \Pr(Z | \hat{\theta}_m, M_m) - \frac{d_m}{2} \log N

この両辺に $$-2$$ を掛けてみよう。何かが見えてくるはずだ：

-2 \log \Pr(Z | M_m) \approx -2 \log \Pr(Z | \hat{\theta}_m, M_m) + d_m \log N

これがBIC（ベイズ情報量規準）だ：

\text{BIC} = -2 \cdot \text{loglik} + (\log N) \cdot d

ラプラス近似の式に-2を掛けるとBICが現れるという導出の流れをアニメーションで示す

アニメーションが示すように、BICはベイズ的な周辺尤度の近似式から自然に現れてきた量だ。天から降ってきた定義ではなく、「ベイズ統計の確率計算を近似した結果」なのだ。

ここに重要な洞察がある：

周辺尤度を最大化することと、BICを最小化することは等価だ。

なぜなら：

周辺尤度 $\Pr(Z|M_m)$ を最大化したい
$\log \Pr(Z|M_m)$ を最大化することと同じ
$-2\log \Pr(Z|M_m)$ を最小化することと同じ
これはまさに BIC を最小化することだ

つまり、BICを最小化するモデルを選ぶことは、ベイズ的に最も確率の高いモデルを選ぶことと同じなのだ。 BICという「スコア」の背後に、ベイズ統計という強固な理論的基盤があるということだ。

AICとBICの違い ─ ペナルティ係数を比べる

BICの定義を見ると、AICに似た構造をしていることに気づく：

基準	式	ペナルティ係数
AIC	$-2\text{loglik} + 2d$	定数 2
BIC	$-2\text{loglik} + (\log N) \cdot d$	log N（N依存）

唯一の違いはペナルティ係数だ。 AICは常に 2 だが、BICは $\log N$ でNとともに増加する。

N（サンプルサイズ）の増加に伴い、AICとBICのペナルティ係数がどう変化するかの折れ線グラフアニメーション

グラフが示すように、N が増えるほど BIC のペナルティが AIC を大きく上回る：

N = 8 のとき：log N ≈ 2.1（AICとほぼ同じ）
N = 100 のとき：log N ≈ 4.6（AICの約2倍）
N = 1000 のとき：log N ≈ 6.9（AICの約3倍）

BICはデータが増えるほど複雑なモデルに対して厳しくなる。これは「データが多ければ、シンプルなモデルでも真の構造を捉えられるはずだ」という直感に対応している。

正確には、 $N > e^2 \approx 7.4$ であれば、常に BIC のペナルティ > AIC のペナルティになる。つまりBICは常にAICより「シンプルなモデルを好む」と言える。この「より厳しい」ペナルティが、BICに特別な性質（一致性）をもたらす。

BICによる事後確率の推定

BICの真の力は、モデルの事後確率を推定できる点だ。「最良のモデルを選ぶ」だけでなく、「各モデルがどれだけ確からしいか」を数値で表せる。

M個のモデル候補に対して、各モデルの事後確率を次のように推定できる：

\Pr(M_m | Z) = \frac{e^{-\frac{1}{2} \text{BIC}_m}}{\sum_{\ell=1}^{M} e^{-\frac{1}{2} \text{BIC}_\ell}}

BICが小さいモデルほど大きな確率が割り当てられる。なぜなら、 $e^{-\text{BIC}/2}$ は BIC が小さいほど大きくなるからだ。分子が大きければ、全体の和に占める割合も大きくなる。

4つのモデルのBIC値棒グラフから、変換を経て事後確率棒グラフへ変化するアニメーション

アニメーションが示すように、BICスコアの棒グラフと事後確率の棒グラフは逆転する。 BICが最小のモデルが最大の事後確率を持つ。

具体例で考えてみよう：

モデル A：BIC = 100
モデル B：BIC = 105

\frac{e^{-50}}{e^{-52.5}} = e^{2.5} \approx 12

モデル A の確率はモデル B の約 12 倍だ。たった BIC の差が 5 でも、これだけの差が生まれる。この指数関数的な変換が、BICの差を確率の差に変換するメカニズムだ。

この枠組みの強さは「最良モデルを選ぶ」だけでなく、「各モデルがどれだけ確からしいか」を数値で表せることにある。例えば「モデルAの確率は 92%、モデルBは 8%」といった形で、不確実性を定量化できる。

BICの一致性 ─ 大量データでの振る舞い

BICとAICは異なる「目的」のために設計されている。この違いが、大量データでの振る舞いに大きな差をもたらす。

N（サンプルサイズ）の増加に伴い、AICとBICがそれぞれどのモデルを選ぶかを示すアニメーション

アニメーションが示すように、N が大きくなるにつれて BIC（赤点）は真のモデルに収束するが、 AIC（青点）はより複雑なモデルを選び続ける傾向がある。

BICの一致性（Consistency）：

候補モデルの中に真のモデルが含まれていれば、サンプルサイズ N が増えるにつれて、 BICが真のモデルを選ぶ確率は限りなく 1 に近づく。

\Pr(\text{BIC が真のモデルを選ぶ}) \to 1 \quad (N \to \infty)

一方、AICにはこの保証がない。 $N \to \infty$ でもAICは複雑なモデルを選びすぎる傾向がある。

しかし BIC にも弱点がある：有限サンプルではシンプルすぎるモデルを選びがちだ。 $\log N$ のペナルティが重すぎて、十分なデータがないうちは、本当に必要な複雑さを持つモデルを棄却してしまうことがある。

まとめ：

目的	推奨基準
真のモデルを特定したい	BIC（大量データで確実）
予測精度を最大化したい	AIC（少量データでも安定）

どちらを使うべきかは、データの量と分析の目的次第だ。「真のモデルを探している」のか「予測精度を上げたい」のか、自分の目的を明確にしてから基準を選ぼう。

次のセクション（7.8）では、全く異なる視点から同じBICを導く「最小記述長（MDL）」のアプローチを学ぶ。情報圧縮の観点から、なぜBICが合理的な基準なのかを理解できる。