マルコフグラフとその性質 — グラフで条件付き独立を読み解く
「気温が高い日はアイスクリームが売れる。そしてなぜか、溺死者数も増える」——この不思議な関係、 アイスクリームが溺死者を増やしているわけではありません。「気温」が共通の原因なのです。 10個、100個の変数が絡み合うデータでは、こういった「直接」と「間接」の違いを追うことが格段に難しくなります。 マルコフグラフはこの問いに対する数学的な答えです。グラフの構造が「直接の依存関係」だけを浮き彫りにします。
グラフとは何か — 依存関係を「見える形」にする
こんな問いから始めよう:「気温が高い日はアイスクリームが売れる。そしてなぜか、溺死者数も増える。 つまりアイスクリームの売上が溺死者を増やしているのか?」
もちろん違う。「気温」が共通の原因だ。気温↑ → アイスクリーム売上↑、 そして気温↑ → プール・海水浴↑ → 溺死↑。 アイスクリームと溺死は、気温という共通原因を通じて間接的に関係しているだけで、 直接の因果関係はない。
では、この「直接」と「間接」の違いを、10個、100個の変数が絡み合うデータではどう追う?グラフィカルモデルはこの問いに対する数学的な答えだ。

グラフという構造を使って、変数間の依存関係を目に見える形に表す:
- 頂点(vertex):各確率変数を1つの点で表す
- 辺(edge):2つの変数が直接関係していることを示す線
- 辺なし:直接関係がないことを示す(最重要ポイント)
先ほどの例をグラフで描くと: 気温(A)とアイスクリーム(B)の間には辺あり。 気温(A)と溺死者数(C)の間にも辺あり。 しかしアイスクリーム(B)と溺死者数(C)の間には辺なし。
「辺がない」ことが、重要な情報を伝える。 これがマルコフグラフの核心だ。
グラフの基本用語もここで押さえておこう。 辺で結ばれた2頂点は「隣接(adjacent)」と言う(X ~ Y と書く)。 辺をたどって頂点から頂点へ移る経路を「パス(path)」と呼ぶ。 全ての頂点ペアが辺で結ばれたグラフを「完全グラフ(complete graph)」という。
マルコフ性 — 「辺なし」が独立を語る
グラフィカルモデルの核心原理はシンプルだ:
辺がない ⟺ 条件付き独立
「条件付き独立」をまず感覚で掴もう。
天気の例:「今日雨か?(X)」「傘を持っているか?(Y)」「足が濡れているか?(Z)」を考えよう。
Yを観測する前:XはZの予測に役立つ(雨の日は足が濡れやすい)。Yを知った後(傘を持っているとわかった後):Xの情報(雨かどうか)はZの予測(足が濡れるか)に何も付け加えない。傘情報が雨と足の濡れの間を「媒介」しているからだ。

この状態を「XとZはYを条件にして独立」と言い、記号で書く:
グラフで描くと、X-Y-Zの鎖グラフになる。XとZの間に辺はない。 グラフが「XとZは直接関係なし、Yを通じてだけ関係する」と伝えているのだ。
一般化するとマルコフ性(Markov property)になる:
ここで「rest」とは、グラフ内のXとY以外の全変数を指す。 グラフを眺めるだけで「どの変数のペアが、他を知った状態で独立か」が即座にわかる。 これがマルコフグラフの直感的な美しさだ。
分離集合 — グループを切り離す「橋」
2変数間の独立性から、変数のグループ間の独立性へ話を広げよう。
「AグループとBグループの間にいる変数のセットCを観測したら、AとBは独立になる」という状況を考える。 頂点の集合Cが、AとBの間の全てのパスをブロックするとき、 CはAとBを分離(separate)すると言う。

この分離は確率的独立性を意味する:
「全てのパスをブロック」を直感的に理解するには: CからAにもBにも通路があるが、AからBへ直接行くためにはCを必ず通過しなければならない、という状況だ。 Cを「知っている」と、AとBの情報の流れが遮断される。
4頂点の鎖グラフの例:X₁ - X₂ - X₃ - X₄
- X₂を知れば:X₁と{X₃, X₄}は独立になる(X₂がX₁の影響をX₃,X₄に「封じ込める」)
- X₃を知れば:{X₁, X₂}とX₄は独立になる
これはまさに「マルコフ連鎖(Markov chain)」の性質だ。 グラフィカルモデルはこれを任意の複雑なグラフ構造に拡張している。
さらに重要な事実がある:ペアの独立性(辺ごとの独立性)とグローバルな独立性(グループ間の独立性)は等価だ(分布が全ての値で正の確率を持つという条件のもとで)。 つまり、各辺の有無を見るだけで、全グループ間の独立性構造を完全に把握できる。
クリーク — 「全員が直接つながっている」部分集合
グラフ構造を理解するうえで「クリーク」という概念が重要な役割を果たす。 それを使えばグラフを小さなピースに分解できる。
友人グループで考えよう。4人(A, B, C, D)がいて、A・B・Cは全員互いに知り合いだが、 DはAとしか知り合いではない。A・B・Cのグループは「クリーク」だ。どの2人も直接つながっている。

クリーク(clique):グラフ内の頂点の部分集合で、その中の全頂点ペアが辺で結ばれているもの。
最大クリーク(maximal clique):それ以上頂点を追加するとクリークでなくなる、最大のクリーク。
4種類の典型的なグラフの最大クリークを見てみよう:
- 鎖グラフ X - Y - Z: 最大クリークは {X,Y} と {Y,Z}。Yを共有する2つのペア。
- 1頂点が孤立したグラフ {X,Y,W} と {Z}:{X,Y,W}が完全部分グラフ(三角形)で1つの最大クリーク、Zが単独で1つのクリーク。
- 4頂点の環グラフ X-Y-Z-W-X: 隣り合う2頂点ずつが最大クリーク:{X,Y}、{Y,Z}、{Z,W}、{X,W}。
- 鎖グラフ X₁-X₂-X₃-X₄:{X₁,X₂}、{X₂,X₃}、{X₃,X₄}の3つが最大クリーク。
クリークは「完全依存の原子」だ。グラフ全体の構造は、これらの小さな完全部分グラフの集まりとして記述できる。 次のセクションでは、このクリークが確率分布の「構成部品」になることを見る。
因子分解定理 — クリークがブロックになる
クリークが判明した。では、そのクリーク情報から確率分布はどう書けるのか?
まず直感から始めよう。2頂点X, Yが直接つながっている(辺がある)とき、 この2変数の関係を表す「相性スコア」関数 ψ(x, y) を考える。 例えば「X=高くてY=大きい」という組み合わせは相性が良い(スコア高)、 「X=低くてY=大きい」は相性が悪い(スコア低)といった形だ。

3変数 X-Y-Z の鎖グラフなら、クリークは {X,Y} と {Y,Z} の2つ。全体の分布は:
「XとYの相性」×「YとZの相性」の積で全体の確率が決まる。直感的だ。
これを一般化したのがハマースリー・クリフォード定理:
全ての値で確率が正の分布を持つグラフィカルモデルは、 必ず最大クリーク上のポテンシャル関数の積として表せる
ここで:
- 𝒞:最大クリークの集合
- ψ_C(x_C):クリークCの「相性スコア関数」(クリークポテンシャル)。 確率密度ではなく、単なる正の実数値関数
- Z:全ての組み合わせのスコアを合計した正規化定数(分配関数)
この式が持つ意味を噛み締めよう:グラフのクリーク構造さえわかれば、 複雑な多変量分布を、局所的な小さなピース(クリークポテンシャル)の積として扱える。計算が格段に楽になる。
重要な注意:グラフ構造は独立性の構造(どの変数が関係しているか)を決めるが、具体的な分布を一意には決めない。 3頂点の完全グラフ(全員つながり)は、例えば以下の2つの異なる分布に整合的だ:
- f⁽²⁾(x,y,z) ∝ ψ(x,y)·ψ(x,z)·ψ(y,z)(ペアのポテンシャル)
- f⁽³⁾(x,y,z) ∝ ψ(x,y,z)(3変数まとめたポテンシャル)
グラフは「どの変数が関係しているか」のスケルトンを与えるが、 「どのように関係しているか」の肉付けは、モデル設計者が決める余地がある。
まとめ — 3つの柱
マルコフグラフについて学んだ核心を整理しよう。

第1の柱:辺なし = 条件付き独立
グラフを見るだけで、変数間の直接の関係性がわかる。 辺がない = 他の全変数を知れば独立。
第2の柱:分離集合によるグローバル独立性
Cがグラフ上でAとBを分離 → A ⊥ B | C。 グラフの「切り取り方」がグループ間の独立性を決める。 ペアごとの独立性を確認するだけで、全グループ間の独立性が自動的に決まる。
第3の柱:ハマースリー・クリフォード定理による因子分解
確率分布 = 最大クリークのポテンシャルの積。 複雑な多変量分布を、局所的な小さなピースに分解して扱える。
次のステップ:この理論的基盤の上に、実際のモデルを構築する。 17.3節では連続変数のグラフィカルモデル(ガウスグラフィカルモデル)を、 17.4節では離散変数のモデルを扱う。 さらに「グラフ構造をデータから学習する方法」も登場する。
グラフの「形」が確率の「構造」を語る。シンプルだが、強力だ。