7.7 ベイズアプローチとBIC

「どのモデルが正しいのか」を統計的に判断したい。 前セクションで学んだAICは「予測精度」を最大化する視点で設計されていた。 しかしAICには欠点がある。データが増えても複雑なモデルを選びすぎる傾向があるのだ。

BIC(ベイズ情報量規準)はベイズ統計から自然に生まれた別の基準で、 「真のモデルを特定する」という異なる哲学を持つ。 このセクションでは、BICがどこから来るのかをベイズの枠組みから理解し、 AICとの本質的な違いを見ていく。

なぜ「確率でモデルを選ぶ」のか

複数のモデル候補がある。線形モデルか、二次モデルか、それとももっと複雑なモデルか。 どれが一番「正しい」のか、どう判断すればよいのだろう?

統計学的な答えの一つがベイズ的アプローチだ。 考え方はシンプルだ:データ $Z$ を観測した後、 各モデル $M_m$ が「どれだけもっともらしいか」を確率で表す。 これをモデルの事後確率という。

3つのモデル候補が天秤にかけられ、事後確率の大きいモデルが選ばれる概念図

アニメーションが示すように、各モデルには「もっともらしさ」という重みがある。 天秤が最も重いモデルを選び出す、それがベイズ的モデル選択の本質だ。

$$\Pr(M_m | Z) \propto \underbrace{\Pr(M_m)}_{\text{事前確率}} \cdot \underbrace{\Pr(Z | M_m)}_{\text{周辺尤度}}$$

この式を読み解こう:

全モデルに同じ事前確率を置けば(一様事前分布)、 周辺尤度 $\Pr(Z|M_m)$ が最大のモデルを選べばよい。 これがベイズモデル選択の出発点だ。

2つのモデルを比べるときは、その比(ベイズ因子)を使う:

$$\underbrace{\frac{\Pr(Z | M_m)}{\Pr(Z | M_\ell)}}_{\text{ベイズ因子}}$$

ベイズ因子が1より大きければ、データは $M_m$ の方を 支持していることを意味する。1より小さければ $M_\ell$ の勝ちだ。

周辺尤度の計算問題 ─ ラプラス近似の登場

ベイズ的モデル選択では、周辺尤度 $\Pr(Z|M_m)$ を計算することが鍵だ。 しかし、ここに大きな問題がある。

周辺尤度を計算するには、モデルのパラメータ $\theta_m$ について 積分しなければならない:

$$\Pr(Z | M_m) = \int \Pr(Z | \theta_m, M_m) \Pr(\theta_m | M_m) \, d\theta_m$$

この積分が問題だ。ほとんどの場合、数式で書き下せない(解析的に解けない)。 数値計算しようとしても、パラメータが多次元になると計算量が爆発する。

そこでラプラス近似という近似手法を使う。 アイデアはシンプルだ:「対数尤度の山を、頂上付近で放物線(二次関数)で近似する」。

対数尤度の山型曲線と、その頂上でのガウス(放物線)近似を視覚化するアニメーション

アニメーションが示すように、青い曲線(真の対数尤度)と黄色の放物線(ラプラス近似)は 頂上付近でほぼ一致する。頂上から離れるほど誤差が生じるが、積分への寄与は頂上付近が 支配的なので、これで十分な近似精度が得られる。

最大尤度推定値 $\hat{\theta}_m$(山の頂上)のまわりで テイラー展開すると、近似の結果として次の美しい式が得られる:

$$\log \Pr(Z | M_m) \approx \underbrace{\log \Pr(Z | \hat{\theta}_m, M_m)}_{\text{最大対数尤度(当てはまり)}} - \underbrace{\frac{d_m}{2} \log N}_{\text{複雑さへのペナルティ}}$$

この式が意味することを読み解こう:

当てはまりが良いほど(最大対数尤度が大きいほど)良いモデルだが、 パラメータが多いほど(複雑なほど)ペナルティを受ける。 さらに重要なのは、データが増えるほど(N が大きいほど)複雑さへのペナルティが重くなるという点だ。

これは直感的だ。データが多ければ、モデルが「本当に複雑である必要があるか」を より確実に判断できる。不要な複雑さは厳しく罰する。

BICの定義 ─ ラプラス近似から自然に導出される

前セクションで得られた近似式を振り返ろう:

$$\log \Pr(Z | M_m) \approx \log \Pr(Z | \hat{\theta}_m, M_m) - \frac{d_m}{2} \log N$$

この両辺に $-2$ を掛けてみよう。 何かが見えてくるはずだ:

$$-2 \log \Pr(Z | M_m) \approx -2 \log \Pr(Z | \hat{\theta}_m, M_m) + d_m \log N$$

これがBIC(ベイズ情報量規準)だ:

$$\text{BIC} = -2 \cdot \text{loglik} + (\log N) \cdot d$$
ラプラス近似の式に-2を掛けるとBICが現れるという導出の流れをアニメーションで示す

アニメーションが示すように、BICはベイズ的な周辺尤度の近似式から自然に現れてきた量だ。 天から降ってきた定義ではなく、「ベイズ統計の確率計算を近似した結果」なのだ。

ここに重要な洞察がある:

周辺尤度を最大化することと、BICを最小化することは等価だ。

なぜなら:

つまり、BICを最小化するモデルを選ぶことは、 ベイズ的に最も確率の高いモデルを選ぶことと同じなのだ。 BICという「スコア」の背後に、ベイズ統計という強固な理論的基盤があるということだ。

AICとBICの違い ─ ペナルティ係数を比べる

BICの定義を見ると、AICに似た構造をしていることに気づく:

基準ペナルティ係数
AIC$-2\text{loglik} + 2d$定数 2
BIC$-2\text{loglik} + (\log N) \cdot d$log N(N依存)

唯一の違いはペナルティ係数だ。 AICは常に 2 だが、BICは $\log N$ でNとともに増加する。

N(サンプルサイズ)の増加に伴い、AICとBICのペナルティ係数がどう変化するかの折れ線グラフアニメーション

グラフが示すように、N が増えるほど BIC のペナルティが AIC を大きく上回る:

BICはデータが増えるほど複雑なモデルに対して厳しくなる。 これは「データが多ければ、シンプルなモデルでも真の構造を捉えられるはずだ」 という直感に対応している。

正確には、$N > e^2 \approx 7.4$ であれば、 常に BIC のペナルティ > AIC のペナルティ になる。 つまりBICは常にAICより「シンプルなモデルを好む」と言える。 この「より厳しい」ペナルティが、BICに特別な性質(一致性)をもたらす。

BICによる事後確率の推定

BICの真の力は、モデルの事後確率を推定できる点だ。 「最良のモデルを選ぶ」だけでなく、「各モデルがどれだけ確からしいか」を数値で表せる。

M個のモデル候補に対して、各モデルの事後確率を 次のように推定できる:

$$\Pr(M_m | Z) = \frac{e^{-\frac{1}{2} \text{BIC}_m}}{\sum_{\ell=1}^{M} e^{-\frac{1}{2} \text{BIC}_\ell}}$$

BICが小さいモデルほど大きな確率が割り当てられる。 なぜなら、$e^{-\text{BIC}/2}$ は BIC が小さいほど大きくなるからだ。 分子が大きければ、全体の和に占める割合も大きくなる。

4つのモデルのBIC値棒グラフから、変換を経て事後確率棒グラフへ変化するアニメーション

アニメーションが示すように、BICスコアの棒グラフと事後確率の棒グラフは逆転する。 BICが最小のモデルが最大の事後確率を持つ。

具体例で考えてみよう:

$$\frac{e^{-50}}{e^{-52.5}} = e^{2.5} \approx 12$$

モデル A の確率はモデル B の約 12 倍だ。 たった BIC の差が 5 でも、これだけの差が生まれる。 この指数関数的な変換が、BICの差を確率の差に変換するメカニズムだ。

この枠組みの強さは「最良モデルを選ぶ」だけでなく、 「各モデルがどれだけ確からしいか」を数値で表せることにある。 例えば「モデルAの確率は 92%、モデルBは 8%」といった形で、 不確実性を定量化できる。

BICの一致性 ─ 大量データでの振る舞い

BICとAICは異なる「目的」のために設計されている。 この違いが、大量データでの振る舞いに大きな差をもたらす。

N(サンプルサイズ)の増加に伴い、AICとBICがそれぞれどのモデルを選ぶかを示すアニメーション

アニメーションが示すように、N が大きくなるにつれて BIC(赤点)は真のモデルに収束するが、 AIC(青点)はより複雑なモデルを選び続ける傾向がある。

BICの一致性(Consistency):

候補モデルの中に真のモデルが含まれていれば、サンプルサイズ N が増えるにつれて、 BICが真のモデルを選ぶ確率は限りなく 1 に近づく。

$$\Pr(\text{BIC が真のモデルを選ぶ}) \to 1 \quad (N \to \infty)$$

一方、AICにはこの保証がない。$N \to \infty$ でもAICは複雑なモデルを選びすぎる傾向がある。

しかし BIC にも弱点がある:有限サンプルではシンプルすぎるモデルを選びがちだ。$\log N$ のペナルティが重すぎて、 十分なデータがないうちは、本当に必要な複雑さを持つモデルを棄却してしまうことがある。

まとめ:

目的推奨基準
真のモデルを特定したいBIC(大量データで確実)
予測精度を最大化したいAIC(少量データでも安定)

どちらを使うべきかは、データの量と分析の目的次第だ。 「真のモデルを探している」のか「予測精度を上げたい」のか、 自分の目的を明確にしてから基準を選ぼう。

次のセクション(7.8)では、全く異なる視点から同じBICを導く 「最小記述長(MDL)」のアプローチを学ぶ。 情報圧縮の観点から、なぜBICが合理的な基準なのかを理解できる。