9.5 階層的専門家混合モデル（HME）

決定木は「もしAならば左、そうでなければ右」という硬い判断を繰り返す。だが現実のデータは、境界線上の点をどちらか一方に強制的に振り分けることが難しいケースが多い。

階層的専門家混合モデル（Hierarchical Mixtures of Experts, HME）は、その「硬さ」を「柔らかさ」に変えることで、決定木の持つ問題を乗り越えようとするアプローチだ。複数の「専門家（エキスパート）」が協力して予測を行う、アンサンブル的な発想を木構造に組み込んでいる。

決定木の「ハードな判断」問題

決定木を思い出してほしい。各内部ノードで、あるデータ点は必ずどちらか一方の枝に進む。これをハードスプリット（hard split）と呼ぶ。

たとえば「年齢が40歳以上なら右、未満なら左」という判断では、 39歳と40歳はまったく別の経路をたどる。しかし実際には、この2つのデータ点の性質はほぼ同じはずだ。

ハードスプリット（左）とソフトスプリット（右）の比較。左では境界線が完全に2色を分け、右ではグラデーションで確率的に分類する — 左：ハードスプリット（境界付近の点も強制的に分類）/ 右：ソフトスプリット（境界付近が確率的に両方に属する）

この「境界線での硬い判断」には2つの問題がある：

最適化が難しい — 分割点の探索は離散的な組み合わせ問題で、計算コストが高い
予測精度の損失 — 境界付近の点は、どちらの枝に入るかで予測が大きく変わりうる

「もし、データ点が確率的に複数の経路を同時にたどれたとしたら？」

これが階層的専門家混合モデル（HME）の出発点だ。ハードな0/1の判断を、0〜1の確率に「柔らかく」置き換えることで、この問題を乗り越えようとする。

HMEの構造 — 専門家とゲーティングネットワーク

HMEは決定木と似た木構造を持つが、ノードの役割が異なる。

末端ノード（葉） → エキスパートネットワークと呼ばれる
内部ノード → ゲーティングネットワークと呼ばれる

この言葉の由来を想像してほしい。スポーツチームに例えるなら：

HMEの2階層木構造。緑の丸（最上位ゲーティングネットワーク）から黄色の丸（下位ゲーティングネットワーク）へ、さらに青の四角（エキスパートネットワーク）へと展開する — HMEの階層構造。上から: ゲーティング（緑）→ 下位ゲーティング（黄）→ エキスパート（青）

エキスパートたちはそれぞれ特定の状況で最も得意なプレイヤーだ。各エキスパートは自分の見解（予測）を持っている。ゲーティングネットワークは「今の状況（入力x）を見て、どのエキスパートを何割信頼するか」を決める司令塔だ。

2階層のHMEモデルを考えよう：

最上位ゲーティングネットワークが、K個の「グループ」への振り分け確率を計算
各グループには下位ゲーティングネットワークがあり、さらにK個のエキスパートへの振り分け確率を計算
合計 $$K^2$$ 個のエキスパートが存在する

この階層構造が「階層的」という名前の由来だ。各エキスパートは「専門領域」を持ち、ゲーティングネットワークが状況に応じて適切なエキスパートを選ぶ仕組みになっている。

ゲーティングネットワークの数式 — ソフトマックス関数

ゲーティングネットワークは「入力xを見て、どの枝に何割振り向けるか」を計算する。この割合は、ソフトマックス関数で表される。

ソフトマックスとは複数の実数値を「確率に変換する」関数だ。直感的には「最も大きな値を持つものに高い確率を与えつつ、他も完全には無視しない」変換と思えばよい。

入力点が左から右へ移動するにつれ、右側の棒グラフ（g1とg2の確率）がリアルタイムで変化する。境界付近で両者がほぼ等しくなる — 入力xの位置に応じて各枝への振り分け確率が変化する。境界付近では50:50に近づく

最上位のゲーティングネットワークの出力（各枝 $$j$$ への振り分け確率）：

g_j(x, \gamma_j) = \frac{e^{\gamma_j^T x}}{\sum_{k=1}^{K} e^{\gamma_k^T x}}, \quad j = 1, 2, \ldots, K

式の各項の意味を確認しよう：

$\gamma_j$ は枝jに関する「学習するパラメータベクトル」
$\gamma_j^T x$ は「入力xとパラメータの内積」（線形スコア）
分母はKつの枝すべてのスコアを足したもの（正規化して確率にする）

重要なポイントを確認しよう：

$g_j(x, \gamma_j) \geq 0$ （確率なので0以上）
$\sum_{j=1}^K g_j(x, \gamma_j) = 1$ （全枝への確率の和は1）
xに依存する — データの特徴によって振り分けが変わる

もし $$K=2$$ の場合、 $\gamma_1$ の係数を $+\infty$ にすると、ロジスティック曲線が無限の傾きを持ち、「硬い0/1の分割」になる。つまりCARTはHMEの特殊ケースと見なせる。

2階層目のゲーティングネットワークも同じ形をとる：

g_{\ell|j}(x, \gamma_{j\ell}) = \frac{e^{\gamma_{j\ell}^T x}}{\sum_{k=1}^{K} e^{\gamma_{jk}^T x}}, \quad \ell = 1, 2, \ldots, K

これは「枝jに入った条件のもとで、さらに枝 $\ell$ に進む確率」だ（条件付き確率）。

エキスパートネットワーク — 専門家の予測

各エキスパート（末端ノード）は、自分が担当する「領域」について予測を行う。エキスパート $j\ell$ のパラメータを $\theta_{j\ell} = (\beta_{j\ell}, \sigma_{j\ell}^2)$ とする。

回帰問題の場合、線形回帰モデルを使う：

Y = \beta_{j\ell}^T x + \varepsilon, \quad \varepsilon \sim N(0, \sigma_{j\ell}^2)

分類問題の場合、ロジスティック回帰モデルを使う：

\Pr(Y=1 \mid x, \theta_{j\ell}) = \frac{1}{1 + e^{-\beta_{j\ell}^T x}}

2次元入力空間を4つのエキスパートが分担。各領域で異なる傾きの直線（線形モデル）が引かれ、境界はグラデーション（ソフトスプリット） — 各エキスパートが担当領域でローカルな線形モデルを学習する。境界は確率的にぼやけている

これはCARTとの重要な違いだ。CARTでは葉ノードに定数を置く（その葉に属するデータの平均など）。HMEでは各エキスパートが線形モデルを持つ。

データを「担当領域」に分けて、それぞれの領域でローカルに線形モデルを当てはめる。これは「区分線形（piecewise linear）」のアイデアに似ている。ただし分割は「確率的」に行われる点がCARTと大きく異なる。

全体の予測は、すべてのエキスパートの予測を、ゲーティングネットワークの確率で重み付けして足し合わせたものだ：

\Pr(y \mid x, \Psi) = \sum_{j=1}^{K} g_j(x, \gamma_j) \sum_{\ell=1}^{K} g_{\ell|j}(x, \gamma_{j\ell}) \Pr(y \mid x, \theta_{j\ell})

この式を分解して読もう：

$g_j(x, \gamma_j)$ ：最上位ゲートが「枝jに行く確率」
$g_{\ell|j}(x, \gamma_{j\ell})$ ：枝jに入った後「枝 $\ell$ に行く確率」（条件付き）
$\Pr(y \mid x, \theta_{j\ell})$ ：エキスパート $(j, \ell)$ の予測

「各経路を通る確率 × その経路のエキスパートの予測」をすべての経路について足したもの。これが混合モデルの予測だ。 $\Psi = \{\gamma_j, \gamma_{j\ell}, \theta_{j\ell}\}$ はモデル全体のパラメータ集合を表す。

パラメータ推定 — EMアルゴリズム

HMEの全パラメータ $\Psi = \{\gamma_j, \gamma_{j\ell}, \theta_{j\ell}\}$ をどうやって学習するか？

目標は対数尤度の最大化だ。対数尤度とは「このパラメータのもとで観測データが得られる確率の対数」で、これを大きくするパラメータを求める：

\sum_i \log \Pr(y_i \mid x_i, \Psi) \to \max

直接最適化しようとすると複雑になる（確率の和の対数は扱いにくい）。そこでEMアルゴリズム（Expectation-Maximization）という手法を使う。

左側：繰り返しのたびに点の色分けが安定していく散布図。右側：対数尤度が段階的に上昇する折れ線グラフ。両者が同期して収束していく — EMアルゴリズムの収束過程。左：エキスパートへの割り当てが反復ごとに安定化。右：対数尤度が単調増加

EMアルゴリズムのアイデア：「もし割り当てが分かれば簡単」

問題を整理しよう。もし「このデータ点はエキスパート(j,ℓ)が担当する」という割り当てが事前に分かっていたら、各エキスパートを単純な線形回帰で推定できる。しかし割り当ては未知だ。

そこでEMは「割り当ての不確かさを確率で表す」ことで、両者を同時に更新する：

Eステップ（期待値計算）：現在のパラメータを使って「各データ点がどのエキスパートの担当である確率」を計算する。たとえばデータ点Aについて「エキスパート1が担当する確率70%、エキスパート2が30%」という確率的割り当てを得る。

Mステップ（最大化）： Eステップの確率を「重み」として使い、各エキスパートを重み付き線形回帰で更新する。エキスパート1の重みが0.7のデータ点は、重み0.7として使われる。

これを繰り返すと、割り当てとエキスパートのパラメータが共に改善されていく。

CARTとの比較：

HMEの対数尤度は未知パラメータに関して連続・滑らかなので、数値最適化が容易
CARTの分割点探索は離散的な組み合わせ探索で、計算コストが高い
ただし、EMアルゴリズムの収束は遅い場合がある（多くの反復が必要）

HMEの特徴とCARTとの比較

同じデータに対するCARTとHMEの決定境界の比較。左（CART）は水平・垂直の直線による階段状境界、右（HME）はなめらかな対角線的境界でグラデーション付き — 左：CARTの階段状決定境界 / 右：HMEのなめらかな決定境界（境界付近はグラデーション）

HMEとCARTの違いをまとめると：

特徴	CART	HME
分割方式	ハード（0/1決定）	ソフト（確率的）
葉のモデル	定数	線形（またはロジスティック）回帰
分割の方向	単一の入力特徴	入力の線形結合
分岐数	2分岐（バイナリ）	K分岐（多値可能）
最適化	離散的（組み合わせ探索）	連続的（EMアルゴリズム）

HMEの利点

ソフトスプリットにより、データの境界付近での予測が安定
連続最適化なので計算が滑らか
各エキスパートが線形モデルを持つため表現力が高い

HMEの欠点

木の構造（深さや分岐数）を事前に決める必要がある。 CARTのように自動的に構造を決める方法が確立されていない
EMアルゴリズムの収束が遅いことがある
解釈がCARTより難しい

実用上は、CARTで得られた木の構造をHMEの初期構造として使うことが多い。

潜在クラスモデルとの関係

HMEの親戚に潜在クラスモデル（latent class model）がある。これは1階層のみのHMEで、ノード（潜在クラス）は「似た反応パターンを持つ対象のグループ」として解釈される。 HMEを理解することは、より広い混合モデルの世界への入り口にもなっている。