コインを5回投げて5回全部表が出た。このコインは公平なのか、それとも偏っているのか? この問いへの答え方が、統計の2つの哲学——頻度主義とベイズ主義——で根本的に異なります。
Chapter 8.2では、「不確かさを明示的に扱い、それを活用する」という共通テーマのもと、 3つの強力な手法を探ります:ベイズ法(事後分布による推論)、EMアルゴリズム(潜在変数の推定)、 そしてバギング/モデル平均化(複数モデルの統合)。
コインを5回投げて5回全部表が出た。このコインは公平なのか、それとも偏っているのか? この問いへの答え方が、統計の2つの哲学——頻度主義とベイズ主義——で根本的に異なります。
頻度主義の立場では、パラメータ θ は固定された未知の値です。 データを集めてその値を「推定」します。コイン問題なら「表が出る確率 p を、データから推定する」というアプローチです。
ベイズ主義の立場では、パラメータ θ もまた不確かさを持つ確率変数として扱います。 「p は最初から 0.5 に近いはずだ」という事前の信念(事前分布 Pr(θ))を持ち、 データを見た後でその信念を更新します。

まず「尤度(ゆうど)」という概念を導入します。 尤度 Pr(Z|θ) とは「パラメータが θ のとき、このデータ Z が観測される確率」のことです。 例えばコインの表確率が p = 0.7 なら、5回全部表の尤度は 0.7⁵ = 0.168。 p = 0.5 なら 0.5⁵ = 0.031。データから見て p = 0.7 のほうが「もっともらしい」ことがわかります。
ベイズ法では、この尤度と事前分布を組み合わせて事後分布 Pr(θ|Z) を計算します:
これがベイズの定理です。分母の積分は「確率の総和を1にするための正規化定数」で、θ によらない定数です。 つまり事後分布は:
データを見た後の知識 = データが与えるエビデンス × データを見る前の信念、というシンプルな掛け算です。
将来の観測値 znew に対する予測も、事後分布を使って積分で求めます:
これは「θ が不確かならば、その不確かさも予測に反映させるべき」という考え方です。 1つの θ で予測するのではなく、ありうる θ すべてについて予測を平均するのです。
ベイズ法の鍵は事前分布 Pr(θ) の選び方にあります。 これを上手く設定することで、データが少ないときでも合理的な推論ができます。
スプライン回帰(なめらかな曲線をデータに当てはめる手法)の例で考えましょう。 スプライン係数 β に対して以下の事前分布を置きます:
ここで τ は事前分布の「強さ」を決めるパラメータです。

アニメーションの2段を見比べてみてください:
τ → ∞ の極限では、事前分布はほぼ「何も教えてくれない」情報になり、事後分布は最尤推定と一致します。
これは重要なメッセージを持っています:最尤法はベイズ法の特殊ケースなのです。 無情報事前分布を使ったベイズ推論は、最尤法と同じ答えを与えます。
しかし、ベイズ法には最尤法にない強みがあります。「点推定」ではなく「分布」を使うため、 予測の不確かさを自然に表現できるのです。
ベイズ法の理論は美しいですが、実用上の大きな壁があります。 事後分布の分母——あの積分 ∫Pr(Z|θ)Pr(θ)dθ ——が多くの場合、解析的に計算できないのです。
特に困るのが、データに「見えない情報」が含まれている場合です。
身長データを例に考えましょう。20人のデータがあり、ヒストグラムが二山(バイモーダル:2つの山を持つ形状)になっているとします。 「男性グループ」と「女性グループ」の2つのガウス分布が混ざっているのかもしれません:
π は「女性グループの割合」、φθ₁ と φθ₂ はそれぞれのガウス分布です。

アニメーションの紫色の点に注目してください。 その点は青(左クラスタ)とオレンジ(右クラスタ)の間で揺れています。 これが「帰属の不確かさ」です。
問題は、どのデータ点がどちらのグループに属するかわからないことです。 グループ帰属がわかっていれば、各グループのガウス分布を簡単に推定できます。 しかし帰属がわからないので、それを「推測」しながらパラメータを推定しなければなりません—— まさに「鶏と卵」の問題です。
この難問を解くのがEMアルゴリズム(Expectation-Maximization、期待値最大化アルゴリズム)です。
EMアルゴリズムは、2つのステップを交互に繰り返します:
Eステップ(期待値ステップ):現在のパラメータ推定値を使って、 各データ点が第2成分(例:女性グループ)に属する「責任(responsibility)」γᵢ を計算します:
これはベイズの定理の直接適用です:分子は「第2成分から来る確率 × 第2成分での密度」、 分母は「全体の密度」です。γᵢ は「このデータ点が第2成分から来た確率」を表します。
Mステップ(最大化ステップ):責任の値を重みとして使い、パラメータを更新します:
新しい平均 μ₁ は「第1成分の責任が高いデータ点」の加重平均、 μ₂ は「第2成分の責任が高いデータ点」の加重平均です。 分散 σ² と混合割合 π も同様に責任を使って更新します。

アニメーションの上下2段を見てください:
この2ステップを繰り返すと、対数尤度は単調に増加し続け、やがて収束します。 EMアルゴリズムは局所最大値への収束が保証されています。
直感的に言えば:「暫定的なグループ帰属を仮定し(Eステップ)、 その仮定でパラメータを最適化し(Mステップ)、また帰属を更新する」——このサイクルです。
EMアルゴリズムはパラメータの最頻値(最も確率が高い点、MAP推定とも呼ばれます)を求めます。 しかし真のベイズ推論では、最頻値だけでなく事後分布全体が必要です。 分布全体を持つことで、予測の不確かさを正確に表現できるからです。
問題は、事後分布の計算に必要な積分が高次元では事実上不可能なことです。 ここで登場するのがMCMC(マルコフ連鎖モンテカルロ)法 です。
MCMCは事後分布を直接計算するのではなく、その分布からサンプルを引くことで近似します。 十分な数のサンプルがあれば、分布の形が推定できます。

ギブスサンプリングはシンプルなMCMC手法の一つです。 パラメータ θ = (θ₁, θ₂, ..., θₖ) を持つ問題で:
「なぜ一度に全パラメータをサンプリングしないのか?」——高次元では難しいからです。 しかし1次元の条件付き分布からのサンプリングは簡単。 ギブスサンプリングはこの「簡単な問題」を繰り返すことで、難しい問題を解きます。 これがアニメーションで見た「直角に曲がるジグザグ運動」として現れます (1ステップずつ縦か横に動く)。
この手続きを繰り返すと、得られるサンプルの分布が事後分布 Pr(θ|Z) に収束します。
EMとMCMCを比較すると:
ベイズ法・EM・MCMCは「不確かさ」をパラメータレベルで扱いました。 ここでは、もう少し実践的なアプローチを見てみましょう—— モデル自体の「不安定さ」への対処です。
ある種のモデル(特に決定木)は不安定です。 訓練データをほんの少し変えるだけで、全く異なる形の木が生まれます。 この不安定さは「バリアンスが高い」状態であり、汎化性能を損ないます。
バギング(Bootstrap Aggregation)の手順:

なぜ平均することでバリアンスが減るのでしょうか? 独立した B 個の確率変数を平均すると、分散は 1/B になります。 ブートストラップサンプルは完全に独立ではありませんが、それでも大幅なバリアンス削減が可能です。
重要な点:バギングが効果的なのは不安定なモデルに限ります。 線形回帰のような安定したモデルでは、ブートストラップサンプルで学習しても似たようなモデルになるため、 平均しても改善は小さいです。
バギングをさらに一般化した概念がモデル平均化です。 バギングが「同じモデルのブートストラップ版」を平均するのに対し、 モデル平均化は異なる種類のモデルを統合します。
ベイズ的モデル平均化では、事後確率で重み付けして予測を組み合わせます:
良いモデルほど高い重み Pr(Mm | Z) を持ちます。ただし事後確率の計算は複雑です。

より実践的な方法がスタッキングです。 最適な重み w = (w₁, ..., wM) をデータから直接学習します:
記法の読み解き:
数学的に証明されていることがあります:最適な重み付き組み合わせは、常に最良の単一モデルより優れています(少なくとも同等以上)。
この章で学んだ手法を振り返ると、共通のテーマが見えてきます:
「不確かさを無視するのではなく、明示的に扱い、活用する」
これらは一見バラバラに見える手法ですが、実は「不確かさへの向き合い方」という 統一されたフレームワークの上に立っています。