「どのモデルが正しいのか」を統計的に判断したい。 前セクションで学んだAICは「予測精度」を最大化する視点で設計されていた。 しかしAICには欠点がある。データが増えても複雑なモデルを選びすぎる傾向があるのだ。
BIC(ベイズ情報量規準)はベイズ統計から自然に生まれた別の基準で、 「真のモデルを特定する」という異なる哲学を持つ。 このセクションでは、BICがどこから来るのかをベイズの枠組みから理解し、 AICとの本質的な違いを見ていく。
複数のモデル候補がある。線形モデルか、二次モデルか、それとももっと複雑なモデルか。 どれが一番「正しい」のか、どう判断すればよいのだろう?
統計学的な答えの一つがベイズ的アプローチだ。 考え方はシンプルだ:データ $Z$ を観測した後、 各モデル $M_m$ が「どれだけもっともらしいか」を確率で表す。 これをモデルの事後確率という。

アニメーションが示すように、各モデルには「もっともらしさ」という重みがある。 天秤が最も重いモデルを選び出す、それがベイズ的モデル選択の本質だ。
この式を読み解こう:
全モデルに同じ事前確率を置けば(一様事前分布)、 周辺尤度 $\Pr(Z|M_m)$ が最大のモデルを選べばよい。 これがベイズモデル選択の出発点だ。
2つのモデルを比べるときは、その比(ベイズ因子)を使う:
ベイズ因子が1より大きければ、データは $M_m$ の方を 支持していることを意味する。1より小さければ $M_\ell$ の勝ちだ。
ベイズ的モデル選択では、周辺尤度 $\Pr(Z|M_m)$ を計算することが鍵だ。 しかし、ここに大きな問題がある。
周辺尤度を計算するには、モデルのパラメータ $\theta_m$ について 積分しなければならない:
この積分が問題だ。ほとんどの場合、数式で書き下せない(解析的に解けない)。 数値計算しようとしても、パラメータが多次元になると計算量が爆発する。
そこでラプラス近似という近似手法を使う。 アイデアはシンプルだ:「対数尤度の山を、頂上付近で放物線(二次関数)で近似する」。

アニメーションが示すように、青い曲線(真の対数尤度)と黄色の放物線(ラプラス近似)は 頂上付近でほぼ一致する。頂上から離れるほど誤差が生じるが、積分への寄与は頂上付近が 支配的なので、これで十分な近似精度が得られる。
最大尤度推定値 $\hat{\theta}_m$(山の頂上)のまわりで テイラー展開すると、近似の結果として次の美しい式が得られる:
この式が意味することを読み解こう:
当てはまりが良いほど(最大対数尤度が大きいほど)良いモデルだが、 パラメータが多いほど(複雑なほど)ペナルティを受ける。 さらに重要なのは、データが増えるほど(N が大きいほど)複雑さへのペナルティが重くなるという点だ。
これは直感的だ。データが多ければ、モデルが「本当に複雑である必要があるか」を より確実に判断できる。不要な複雑さは厳しく罰する。
前セクションで得られた近似式を振り返ろう:
この両辺に $-2$ を掛けてみよう。 何かが見えてくるはずだ:
これがBIC(ベイズ情報量規準)だ:

アニメーションが示すように、BICはベイズ的な周辺尤度の近似式から自然に現れてきた量だ。 天から降ってきた定義ではなく、「ベイズ統計の確率計算を近似した結果」なのだ。
ここに重要な洞察がある:
周辺尤度を最大化することと、BICを最小化することは等価だ。
なぜなら:
つまり、BICを最小化するモデルを選ぶことは、 ベイズ的に最も確率の高いモデルを選ぶことと同じなのだ。 BICという「スコア」の背後に、ベイズ統計という強固な理論的基盤があるということだ。
BICの定義を見ると、AICに似た構造をしていることに気づく:
| 基準 | 式 | ペナルティ係数 |
|---|---|---|
| AIC | $-2\text{loglik} + 2d$ | 定数 2 |
| BIC | $-2\text{loglik} + (\log N) \cdot d$ | log N(N依存) |
唯一の違いはペナルティ係数だ。 AICは常に 2 だが、BICは $\log N$ でNとともに増加する。

グラフが示すように、N が増えるほど BIC のペナルティが AIC を大きく上回る:
BICはデータが増えるほど複雑なモデルに対して厳しくなる。 これは「データが多ければ、シンプルなモデルでも真の構造を捉えられるはずだ」 という直感に対応している。
正確には、$N > e^2 \approx 7.4$ であれば、 常に BIC のペナルティ > AIC のペナルティ になる。 つまりBICは常にAICより「シンプルなモデルを好む」と言える。 この「より厳しい」ペナルティが、BICに特別な性質(一致性)をもたらす。
BICの真の力は、モデルの事後確率を推定できる点だ。 「最良のモデルを選ぶ」だけでなく、「各モデルがどれだけ確からしいか」を数値で表せる。
M個のモデル候補に対して、各モデルの事後確率を 次のように推定できる:
BICが小さいモデルほど大きな確率が割り当てられる。 なぜなら、$e^{-\text{BIC}/2}$ は BIC が小さいほど大きくなるからだ。 分子が大きければ、全体の和に占める割合も大きくなる。

アニメーションが示すように、BICスコアの棒グラフと事後確率の棒グラフは逆転する。 BICが最小のモデルが最大の事後確率を持つ。
具体例で考えてみよう:
モデル A の確率はモデル B の約 12 倍だ。 たった BIC の差が 5 でも、これだけの差が生まれる。 この指数関数的な変換が、BICの差を確率の差に変換するメカニズムだ。
この枠組みの強さは「最良モデルを選ぶ」だけでなく、 「各モデルがどれだけ確からしいか」を数値で表せることにある。 例えば「モデルAの確率は 92%、モデルBは 8%」といった形で、 不確実性を定量化できる。
BICとAICは異なる「目的」のために設計されている。 この違いが、大量データでの振る舞いに大きな差をもたらす。

アニメーションが示すように、N が大きくなるにつれて BIC(赤点)は真のモデルに収束するが、 AIC(青点)はより複雑なモデルを選び続ける傾向がある。
BICの一致性(Consistency):
候補モデルの中に真のモデルが含まれていれば、サンプルサイズ N が増えるにつれて、 BICが真のモデルを選ぶ確率は限りなく 1 に近づく。
一方、AICにはこの保証がない。$N \to \infty$ でもAICは複雑なモデルを選びすぎる傾向がある。
しかし BIC にも弱点がある:有限サンプルではシンプルすぎるモデルを選びがちだ。$\log N$ のペナルティが重すぎて、 十分なデータがないうちは、本当に必要な複雑さを持つモデルを棄却してしまうことがある。
まとめ:
| 目的 | 推奨基準 |
|---|---|
| 真のモデルを特定したい | BIC(大量データで確実) |
| 予測精度を最大化したい | AIC(少量データでも安定) |
どちらを使うべきかは、データの量と分析の目的次第だ。 「真のモデルを探している」のか「予測精度を上げたい」のか、 自分の目的を明確にしてから基準を選ぼう。
次のセクション(7.8)では、全く異なる視点から同じBICを導く 「最小記述長(MDL)」のアプローチを学ぶ。 情報圧縮の観点から、なぜBICが合理的な基準なのかを理解できる。