9.5 階層的専門家混合モデル(HME)

決定木は「もしAならば左、そうでなければ右」という硬い判断を繰り返す。 だが現実のデータは、境界線上の点をどちらか一方に強制的に振り分けることが 難しいケースが多い。

階層的専門家混合モデル(Hierarchical Mixtures of Experts, HME)は、 その「硬さ」を「柔らかさ」に変えることで、決定木の持つ問題を乗り越えようとするアプローチだ。 複数の「専門家(エキスパート)」が協力して予測を行う、 アンサンブル的な発想を木構造に組み込んでいる。

決定木の「ハードな判断」問題

決定木を思い出してほしい。 各内部ノードで、あるデータ点は必ずどちらか一方の枝に進む。 これをハードスプリット(hard split)と呼ぶ。

たとえば「年齢が40歳以上なら右、未満なら左」という判断では、 39歳と40歳はまったく別の経路をたどる。 しかし実際には、この2つのデータ点の性質はほぼ同じはずだ。

ハードスプリット(左)とソフトスプリット(右)の比較。左では境界線が完全に2色を分け、右ではグラデーションで確率的に分類する
左:ハードスプリット(境界付近の点も強制的に分類)/ 右:ソフトスプリット(境界付近が確率的に両方に属する)

この「境界線での硬い判断」には2つの問題がある:

  1. 最適化が難しい — 分割点の探索は離散的な組み合わせ問題で、計算コストが高い
  2. 予測精度の損失 — 境界付近の点は、どちらの枝に入るかで予測が大きく変わりうる

「もし、データ点が確率的に複数の経路を同時にたどれたとしたら?」

これが階層的専門家混合モデル(HME)の出発点だ。 ハードな0/1の判断を、0〜1の確率に「柔らかく」置き換えることで、 この問題を乗り越えようとする。

HMEの構造 — 専門家とゲーティングネットワーク

HMEは決定木と似た木構造を持つが、ノードの役割が異なる。

この言葉の由来を想像してほしい。スポーツチームに例えるなら:

HMEの2階層木構造。緑の丸(最上位ゲーティングネットワーク)から黄色の丸(下位ゲーティングネットワーク)へ、さらに青の四角(エキスパートネットワーク)へと展開する
HMEの階層構造。上から: ゲーティング(緑)→ 下位ゲーティング(黄)→ エキスパート(青)

エキスパートたちはそれぞれ特定の状況で最も得意なプレイヤーだ。 各エキスパートは自分の見解(予測)を持っている。ゲーティングネットワークは「今の状況(入力x)を見て、 どのエキスパートを何割信頼するか」を決める司令塔だ。

2階層のHMEモデルを考えよう:

この階層構造が「階層的」という名前の由来だ。 各エキスパートは「専門領域」を持ち、ゲーティングネットワークが 状況に応じて適切なエキスパートを選ぶ仕組みになっている。

ゲーティングネットワークの数式 — ソフトマックス関数

ゲーティングネットワークは「入力xを見て、どの枝に何割振り向けるか」を計算する。 この割合は、ソフトマックス関数で表される。

ソフトマックスとは複数の実数値を「確率に変換する」関数だ。 直感的には「最も大きな値を持つものに高い確率を与えつつ、 他も完全には無視しない」変換と思えばよい。

入力点が左から右へ移動するにつれ、右側の棒グラフ(g1とg2の確率)がリアルタイムで変化する。境界付近で両者がほぼ等しくなる
入力xの位置に応じて各枝への振り分け確率が変化する。境界付近では50:50に近づく

最上位のゲーティングネットワークの出力(各枝 $j$ への振り分け確率):

$$g_j(x, \gamma_j) = \frac{e^{\gamma_j^T x}}{\sum_{k=1}^{K} e^{\gamma_k^T x}}, \quad j = 1, 2, \ldots, K$$

式の各項の意味を確認しよう:

重要なポイントを確認しよう:

もし $K=2$ の場合、$\gamma_1$ の係数を$+\infty$ にすると、 ロジスティック曲線が無限の傾きを持ち、「硬い0/1の分割」になる。 つまりCARTはHMEの特殊ケースと見なせる。

2階層目のゲーティングネットワークも同じ形をとる:

$$g_{\ell|j}(x, \gamma_{j\ell}) = \frac{e^{\gamma_{j\ell}^T x}}{\sum_{k=1}^{K} e^{\gamma_{jk}^T x}}, \quad \ell = 1, 2, \ldots, K$$

これは「枝jに入った条件のもとで、さらに枝$\ell$ に進む確率」だ(条件付き確率)。

エキスパートネットワーク — 専門家の予測

各エキスパート(末端ノード)は、自分が担当する「領域」について予測を行う。 エキスパート $j\ell$ のパラメータを$\theta_{j\ell} = (\beta_{j\ell}, \sigma_{j\ell}^2)$ とする。

回帰問題の場合、線形回帰モデルを使う:

$$Y = \beta_{j\ell}^T x + \varepsilon, \quad \varepsilon \sim N(0, \sigma_{j\ell}^2)$$

分類問題の場合、ロジスティック回帰モデルを使う:

$$\Pr(Y=1 \mid x, \theta_{j\ell}) = \frac{1}{1 + e^{-\beta_{j\ell}^T x}}$$
2次元入力空間を4つのエキスパートが分担。各領域で異なる傾きの直線(線形モデル)が引かれ、境界はグラデーション(ソフトスプリット)
各エキスパートが担当領域でローカルな線形モデルを学習する。境界は確率的にぼやけている

これはCARTとの重要な違いだ。CARTでは葉ノードに定数を置く (その葉に属するデータの平均など)。HMEでは各エキスパートが線形モデルを持つ。

データを「担当領域」に分けて、それぞれの領域でローカルに線形モデルを当てはめる。 これは「区分線形(piecewise linear)」のアイデアに似ている。 ただし分割は「確率的」に行われる点がCARTと大きく異なる。

全体の予測は、すべてのエキスパートの予測を、ゲーティングネットワークの確率で 重み付けして足し合わせたものだ:

$$\Pr(y \mid x, \Psi) = \sum_{j=1}^{K} g_j(x, \gamma_j) \sum_{\ell=1}^{K} g_{\ell|j}(x, \gamma_{j\ell}) \Pr(y \mid x, \theta_{j\ell})$$

この式を分解して読もう:

「各経路を通る確率 × その経路のエキスパートの予測」をすべての経路について足したもの。 これが混合モデルの予測だ。$\Psi = \{\gamma_j, \gamma_{j\ell}, \theta_{j\ell}\}$ は モデル全体のパラメータ集合を表す。

パラメータ推定 — EMアルゴリズム

HMEの全パラメータ $\Psi = \{\gamma_j, \gamma_{j\ell}, \theta_{j\ell}\}$ を どうやって学習するか?

目標は対数尤度の最大化だ。 対数尤度とは「このパラメータのもとで観測データが得られる確率の対数」で、 これを大きくするパラメータを求める:

$$\sum_i \log \Pr(y_i \mid x_i, \Psi) \to \max$$

直接最適化しようとすると複雑になる(確率の和の対数は扱いにくい)。 そこでEMアルゴリズム(Expectation-Maximization)という手法を使う。

左側:繰り返しのたびに点の色分けが安定していく散布図。右側:対数尤度が段階的に上昇する折れ線グラフ。両者が同期して収束していく
EMアルゴリズムの収束過程。左:エキスパートへの割り当てが反復ごとに安定化。右:対数尤度が単調増加

EMアルゴリズムのアイデア:「もし割り当てが分かれば簡単」

問題を整理しよう。もし「このデータ点はエキスパート(j,ℓ)が担当する」という 割り当てが事前に分かっていたら、各エキスパートを単純な線形回帰で推定できる。 しかし割り当ては未知だ。

そこでEMは「割り当ての不確かさを確率で表す」ことで、両者を同時に更新する:

Eステップ(期待値計算): 現在のパラメータを使って「各データ点がどのエキスパートの担当である確率」を計算する。 たとえばデータ点Aについて「エキスパート1が担当する確率70%、エキスパート2が30%」 という確率的割り当てを得る。

Mステップ(最大化): Eステップの確率を「重み」として使い、各エキスパートを重み付き線形回帰で更新する。 エキスパート1の重みが0.7のデータ点は、重み0.7として使われる。

これを繰り返すと、割り当てとエキスパートのパラメータが共に改善されていく。

CARTとの比較

HMEの特徴とCARTとの比較

同じデータに対するCARTとHMEの決定境界の比較。左(CART)は水平・垂直の直線による階段状境界、右(HME)はなめらかな対角線的境界でグラデーション付き
左:CARTの階段状決定境界 / 右:HMEのなめらかな決定境界(境界付近はグラデーション)

HMEとCARTの違いをまとめると:

特徴CARTHME
分割方式ハード(0/1決定)ソフト(確率的)
葉のモデル定数線形(またはロジスティック)回帰
分割の方向単一の入力特徴入力の線形結合
分岐数2分岐(バイナリ)K分岐(多値可能)
最適化離散的(組み合わせ探索)連続的(EMアルゴリズム

HMEの利点

HMEの欠点

実用上は、CARTで得られた木の構造をHMEの初期構造として使うことが多い。

潜在クラスモデルとの関係

HMEの親戚に潜在クラスモデル(latent class model)がある。 これは1階層のみのHMEで、ノード(潜在クラス)は 「似た反応パターンを持つ対象のグループ」として解釈される。 HMEを理解することは、より広い混合モデルの世界への入り口にもなっている。