8.4 BootstrapとBayes推論の不思議な一致

データから何かを推定したとき、その推定値はどれくらい信頼できるのでしょうか。この素朴な問いに、統計学は驚くほど発想の違う二つの答えを用意してきました。一つはデータを「ガラガラポン」と引き直して不確実性を測るBootstrap法。もう一つは確率の言葉でパラメータの分布を語るBayes推論です。

一見、まったく違う発想に思える両者。ところが、ある条件のもとでは、両者がぴたりと同じ答えを出すという驚くべき事実があります。このチャプターでは、その「不思議な一致」を一つずつ解きほぐしながら、Bootstrapが「貧者のBayes事後分布」と呼ばれる深い理由を一緒に発見していきます。

二つの世界、別々の道

ここに一つの素朴な問いがあります。あなたの手元にデータがあるとき、そこから導いた推定値はどれくらい信頼できるのでしょうか。たとえば「100人のテストの平均点は72点だった」と言われたとき、それは本当の平均点なのか、それともたまたまそうだったのか。この不安に答えるために、統計学は二つの異なる流派を生み出してきました。

BootstrapとBayesが別々の道をたどりながら同じ分布に収束する様子 — 左がBootstrap法、右がBayes推論。全く異なるアプローチが、同じ場所にたどり着く

一つはBootstrap法。手元のデータから何度も「サンプリングし直す」ことで、推定値のばらつきを直接観察するアプローチです。数学的な仮定を最小限にして、データそのものに語らせる。そんなスタンスの手法です。

もう一つはBayes推論。こちらは少し抽象的な言葉を使います。データを見る「前」のパラメータについての信念を表す分布、それを事前分布（prior）と呼びます。データを観察した「後」のパラメータについての分布、それが事後分布（posterior）。そしてその間を結ぶ橋渡しが、尤度（ゆうど、likelihood）です。尤度とは「もしパラメータがこの値だったら、観測されたデータはどれくらい起きやすいか」を表す量です。

Bayesの世界では、これら三つをベイズの定理で結びつけて、事後分布を計算します。

\text{事後分布} \propto \text{尤度} \times \text{事前分布}

Bootstrap派は言います。「数学的な仮定なんていらない。データに語らせよう」。Bayes派は応えます。「不確実性を扱うなら、確率の言葉で厳密に語ろう」。両者は長らく、別々の道を歩んできました。

ところが、ここで不思議なことが起こります。まったく違う発想から出発したはずの両者が、ある条件のもとでは、同じ場所にたどり着くのです。データを揺さぶって得られたBootstrap分布と、事後分布が、ぴたりと重なる。これは偶然なのか、それとも何か深い理由があるのか。一緒に見ていきましょう。

最も単純な舞台で

両者の一致を確かめるため、できる限り単純な舞台を用意しましょう。観測値 $z$ が、平均 $\theta$ 、分散 $1$ の正規分布から得られるとします。

z \sim N(\theta, 1)

私たちの仕事は、たった一つの観測値 $z$ から、未知のパラメータ $\theta$ について何が言えるかを考えることです。

Bayesの道筋を辿ってみましょう。事前分布として「 $\theta$ は平均 $0$ 、分散 $\tau$ の正規分布に従う」と仮定します。ここで $\tau$ は事前分布の「広がり」を表すパラメータです。 $\tau$ が小さいと「 $\theta$ は $0$ の近くだろう」という強い信念を表し、 $\tau$ が大きいと「 $\theta$ がどんな値でも構わない」という弱い信念になります。極端に $\tau \to \infty$ とすれば、分布は平坦に近づき、まさに「何も知らない状態」を表現できます。このような事前分布を非情報事前分布（noninformative prior）と呼びます。

τを大きくすると事後分布がzを中心とした正規分布に収束する様子 — 緑が事前分布、黄が尤度、青が事後分布。τが大きくなるにつれて事後分布（青）が観測値z（赤線）に向かって移動する

このとき、ベイズの定理（事後 ∝ 尤度 × 事前）を計算すると、事後分布は再び正規分布の形になります。これは正規分布同士の掛け算が正規分布になるという、ありがたい性質のおかげです。結果として、

\theta \mid z \sim N\left(\frac{z}{1 + 1/\tau}, \frac{1}{1 + 1/\tau}\right)

事後分布の平均 $z / (1 + 1/\tau)$ は、「事前分布の中心 $0$ 」と「観測値 $z$ 」のあいだの重み付き平均だと読むことができます。 $\tau$ が大きい（事前分布が緩い）ほど、 $z$ そのものに近づいていきます。

そして、 $\tau \to \infty$ （つまり「何も知らない」極限）を取ると、不思議な簡単さで次のように収束します。

\theta \mid z \sim N(z, 1)

つまり、観測値 $z$ を中心とした、分散 $1$ の正規分布が事後分布になるのです。これがBayesの答えです。

Bootstrapの世界へ

次に、同じ問題をBootstrapの目で見てみましょう。

Bootstrap法の手順はとてもシンプルです。まずデータから最尤推定値を求めます。最尤推定とは、「観測されたデータが最も起きやすくなるようなパラメータの値」を選ぶ方法です。今回のように $z \sim N(\theta, 1)$ で観測値が一つだけある場合、 $\theta$ を $z$ にすると、その観測値が出る尤度が最大になります。だから最尤推定値は $\hat{\theta} = z$ となります。

次に、推定したパラメータを「真の値だったかのように扱って」、その分布から新しいサンプルを引き直します。これをパラメトリックBootstrapと呼びます。

z^* \sim N(\hat{\theta}, 1) = N(z, 1)

このリサンプルから新たに推定値 $\hat{\theta}^* = z^*$ を作る。これを何千回も繰り返すと、推定値のばらつき具合、つまりBootstrap分布が得られます。

観測値zからBootstrapサンプルが蓄積してヒストグラムが形成される様子 — 上の鐘形曲線 N(z, 1) から点が一つずつ飛び出し、下に積み重なってヒストグラムを形成する

ここで注目してください。Bootstrap分布は何でしょうか。 $z$ を中心とした、分散 $1$ の正規分布です。

そう、これは前のセクションで導いた、非情報事前分布のもとでの事後分布と完全に同じなのです。事前分布も尤度の計算も、ベイズの定理も明示的には使っていないのに、答えが一致する。これは偶然ではありません。

\hat{\theta}^* \sim N(z, 1)

この式は、前セクションで導いた事後分布 $\theta \mid z \sim N(z, 1)$ と完全に一致しています。

一致を生む三つの条件

なぜこの一致が起こるのでしょうか。種明かしの鍵は、教科書が明確にしている三つの条件です。一つずつ、できるだけ素直な言葉で見ていきましょう。

三つの条件が順に満たされるたびBootstrapとBayes事後分布が近づき最終的に重なる様子 — 3つのパネルが緑に点灯するたびに、青（Bootstrap）と黄（Bayes）の分布が近づき、最後に緑（一致）になる

条件1: 事前分布が「何も知らない」状態であること

事前分布が広く平坦（ $\tau \to \infty$ ）であれば、事後分布の形はもう尤度関数だけで決まります。逆に強い事前分布を入れると、事後分布はその信念に引っ張られて、データだけから出てきたBootstrap分布とはずれていきます。だから、両者を一致させるには「事前分布が事実上効いていない」状況である必要があります。

条件2: データの情報がすべて最尤推定値に集約されていること

少し技術的な言葉で言うと「対数尤度が最尤推定値 $\hat{\theta}$ を通してのみデータに依存する」ですが、ここでの対数尤度は単に尤度の対数を取った量で、計算しやすくするための変形と思って構いません。重要なのは、データから取り出せる情報がすべて $\hat{\theta}$ という一つの値に詰まっている、という状況です。統計学ではこれを「 $\hat{\theta}$ が十分統計量である」と表現します。データのうち $\hat{\theta}$ さえ握っていれば、他の細かい情報は捨てても損しない、ということです。

条件3: 尤度関数が左右対称な形をしていること

正規分布のように、 $\theta$ を中心とした「綺麗な鐘形」になっている尤度を想像してください。この対称性のおかげで、「真の $\theta$ から $\hat{\theta}$ がどう揺らぐか」と「観測された $\hat{\theta}$ から $\theta$ がどう揺らぐか」が、ちょうど鏡のような関係になります。この鏡像の関係こそが、Bootstrapと事後分布をぴたりと結びつける橋渡しなのです。

正規分布の場合、これら三条件はすべて厳密に満たされます。だから、Bootstrap分布と事後分布が完全に一致するのです。

サイコロの世界へ

正規分布だけが特別なのでしょうか。実は似たような一致は、もっと身近な状況でも起こります。たとえば「サイコロ」を題材に考えてみましょう。

公平とは限らない $L$ 面体のサイコロを $N$ 回振ったとします。各目が出る確率を $w = (w_1, w_2, \ldots, w_L)$ とすると、観測されたデータは「どの目が何回出たか」という $L$ 個のカウントです。この状況を表す確率分布が多項分布（multinomial distribution）です。多項分布は、サイコロを $N$ 回振ったときの各目の出方の分布、と覚えればOKです。

ここでBayes推論を行うには、 $w$ 自体の事前分布が必要です。 $w$ は「合計が $1$ になる確率ベクトル」なので、その上に自然に乗る分布としてDirichlet分布を使います。Dirichlet分布は、多項分布の確率ベクトル $w$ そのものの分布、と思ってください。記号で書くと事前分布は $w \sim \mathrm{Dir}(a)$ で、 $a$ は「事前にどれくらい確信があるか」を制御するパラメータです。

データから観測されたサンプル比率を $\tilde{w}$ とします。このとき事後分布もまたDirichlet分布になり、

w \mid \text{data} \sim \mathrm{Dir}(a + N\tilde{w})

ここで非情報極限 $a \to 0$ を取ると、

w \sim \mathrm{Dir}(N\tilde{w})

これがBayesの答えです。一方、Bootstrap では、観測されたサンプル比率 $\tilde{w}$ から、置き換えありでサンプルを引き直します。

N\tilde{w}^* \sim \mathrm{Mult}(N, \tilde{w})

三角形シンプレックス上でDirichlet分布とBootstrapサンプルが重なる様子 — 三角形はw₁+w₂+w₃=1の確率空間（シンプレックス）。黄（Dirichlet）と青（Bootstrap）の点群が同じ領域を覆い、緑に統一される

二つの分布、DirichletとMultinomial。形は違いますが、取りうる値の範囲（サポート）と、値同士のばらつき方の構造（共分散構造）は同じです。 $N$ が大きくなるにつれて、両者は実質的に区別がつかなくなります。これを漸近的に一致すると表現します（「漸近的」とは「サンプル数が大きいときに限って」という意味の統計用語です）。

正規分布では「厳密」だった一致が、ここでは「漸近的」になる。それでも、両者の深い結びつきは健在です。

「貧者のBayes事後分布」

ここまでの旅で見えてきたこと。それは、Bootstrap分布が「近似的な、ノンパラメトリックで非情報的な事後分布」を表しているという事実です。ノンパラメトリックとは、データの背後にある分布の形について特定の数式モデルを仮定しない、という意味です。Bootstrapはまさに、データそのものを使ってサンプリングし、分布の形を仮定せずに推定値のばらつきを求めます。

教科書は、この発見を次のように要約しています。「Bootstrap分布は、貧者のBayes事後分布である」。少し皮肉めいた言い方ですが、その意味は深いものです。

複雑なBayes装置とシンプルなBootstrapが同じ結果を出す対比 — 上の赤い「重い」Bayes装置も、下の青い「シンプルな」Bootstrapも、最終的に同じ緑の分布を出力する

通常、Bayes推論を行うには、まず事前分布を慎重に選び、ベイズの定理を適用し、しばしば計算困難な事後分布からサンプリングする必要があります。事後分布の解析的な形が手に入らない場合は、MCMC（マルコフ連鎖モンテカルロ）という重い計算技法を使って、無理やり事後分布からサンプルを取ります。MCMCは強力ですが、設計も計算も大変です。

ところがBootstrapは、ただ「データを引き直す」だけ。事前分布の指定も、複雑な積分も、MCMCのような重い計算も不要。それでいて、非情報事前分布のもとでのBayes事後分布と本質的に同じ情報を、ほとんど「無料で」与えてくれるのです。

これは何を意味するでしょうか。Bootstrapは単なる「便利な道具」ではなく、Bayes推論の世界と地続きの、確かな統計的基盤を持つ手法だということです。データから何度もサンプリングする、その素朴な行為の裏には、ベイズの定理が静かに息づいている。これこそが、Bootstrapが今も実務で愛用される深い理由なのです。