4.3 線形判別分析（LDA）

メールがスパムかどうか、患者の検査値から病気かどうか、写真に写っているのが犬か猫か—私たちは日常的に「分類」という問題に直面しています。

線形判別分析（LDA）は、驚くほどシンプルな仮定から、この問いに答えます。各グループのデータが「山」のような形（正規分布）に従い、その山の「形」が同じなら、グループを分ける境界は直線になる—この美しい事実を、一緒に発見していきましょう。

分類問題とベイズの定理

病院で、ある患者の血液検査の結果が出ました。この患者は糖尿病でしょうか、それとも健康でしょうか？

直感的には、「糖尿病患者のデータに似ているかどうか」で判断したくなります。でも、ここで注意が必要です。

例えば、来院患者の90%が健康で、10%が糖尿病だとします。検査値がやや異常でも、「そもそも健康な人の方が多い」という事実を無視すると、誤診につながります。

ベイズの定理は、「データがどれくらいそのグループらしいか」と「そもそもそのグループがどれくらい多いか」を正しく組み合わせる方法を教えてくれます。

P(G = k | X = x) = \frac{f_k(x) \cdot \pi_k}{\sum_{\ell=1}^{K} f_\ell(x) \cdot \pi_\ell}

この式の意味を一つずつ見ていきましょう：

$$P(G = k | X = x)$$ ：データ $$x$$ が観測されたとき、グループ $$k$$ である確率。これを事後確率と呼びます。「データを見た後の確率」という意味です。
$\pi_k$ ：グループ $$k$$ が全体に占める割合。これを事前確率と呼びます。「データを見る前から分かっている確率」という意味です。先ほどの例では、健康な人の事前確率が0.9、糖尿病の事前確率が0.1です。
$$f_k(x)$$ ：グループ $$k$$ のデータが、値 $$x$$ をどれくらい取りやすいか。専門的には密度関数と呼びますが、「そのグループにとってどれくらい自然な値か」を表す数値だと考えてください。

分母は「全グループの合計」で、確率の合計が1になるようにするための調整です。

正規分布の仮定—データの「山」

さて、ベイズの定理を使うには、「グループ $$k$$ のデータがどう分布しているか」を知る必要があります。ここでLDAは大胆な仮定をします：各グループのデータは正規分布に従う。

正規分布（ガウス分布）は、おなじみの「釣り鐘型」の分布です。身長、体重、テストの点数など、多くの自然現象がこの形に従います。

2つ以上の変数を同時に扱う場合、これは「多変量ガウス分布」になり、2次元なら「山」のような形になります。

f_k(x) = \frac{1}{(2\pi)^{p/2}|\Sigma_k|^{1/2}} \exp\left(-\frac{1}{2}(x - \mu_k)^T \Sigma_k^{-1}(x - \mu_k)\right)

式は複雑に見えますが、ポイントは2つだけです：

$\mu_k$ （ミュー）：山の「頂上」の位置。グループ $$k$$ の中心です。
$\Sigma_k$ （シグマ）：山の「形」を決める行列。これを共分散行列と呼びます。

共分散行列とは何でしょうか？2つの変数（例えば身長と体重）が「一緒に動く傾向」を数値化したものです。身長が高い人は体重も重い傾向があります。この「一緒に動く度合い」が共分散です。

共分散行列が変わると、分布の形も変わります：

対角成分（自分自身との共分散＝分散）が大きいと、その方向に広がる
非対角成分（異なる変数間の共分散）があると、山が「傾く」

面白いことに、同じ密度の点を結ぶと楕円になります。これは後で決定境界を理解する際に重要になります。

LDAの核心—「形が同じ」という仮定

ここからが面白いところです。

LDAでは、「すべてのグループの山が同じ形をしている」と仮定します。

\Sigma_1 = \Sigma_2 = \cdots = \Sigma_K = \Sigma

つまり、山の「頂上の位置」（中心）だけが違い、「形」は全グループで共通というわけです。

この仮定が何をもたらすか、見てみましょう。

2つのグループを比較するとき、「グループ1である確率」と「グループ2である確率」の比を取ることを考えます。この比の対数を取ったものを対数オッズ（log-odds）と呼びます。対数を取るのは、計算が楽になり、結果も解釈しやすくなるからです。

計算すると：

\log \frac{P(G = k | X = x)}{P(G = \ell | X = x)} = \underbrace{\log \frac{\pi_k}{\pi_\ell}}_{\text{事前確率の効果}} + \underbrace{x^T \Sigma^{-1}(\mu_k - \mu_\ell)}_{\text{データの位置の効果}} - \underbrace{\frac{1}{2}(\mu_k + \mu_\ell)^T \Sigma^{-1}(\mu_k - \mu_\ell)}_{\text{中心の位置の調整}}

注目すべきは、この式が $$x$$ について線形（1次式）であることです。

なぜでしょう？本来、正規分布の密度には $(x-\mu)^T\Sigma^{-1}(x-\mu)$ という $$x$$ の2次の項が含まれます。しかし、共分散が同じなら、2つのグループの2次の項がキャンセルし合うのです！

これが「線形判別分析」と呼ばれる理由です。「山の形が同じ」という仮定が、美しい直線境界を生み出すのです。

判別関数—分類を効率化する道具

毎回、確率を計算して比較するのは面倒です。そこで、分類を効率化する「判別関数」という道具を導入します。

各グループに対して、以下の関数を計算します：

\delta_k(x) = x^T \Sigma^{-1} \mu_k - \frac{1}{2} \mu_k^T \Sigma^{-1} \mu_k + \log \pi_k

そして、この値が最大のグループに分類します：

G(x) = \arg\max_k \delta_k(x)

判別関数の各項を見てみましょう：

$x^T \Sigma^{-1} \mu_k$ ：データ $$x$$ がグループ中心 $\mu_k$ にどれくらい「近い」か。内積のような計算です。
$-\frac{1}{2} \mu_k^T \Sigma^{-1} \mu_k$ ：グループ中心の位置による調整項。中心が原点から遠いグループにペナルティを与えます。
$\log \pi_k$ ：事前確率のボーナス。サンプルが多いグループは有利になります。

実際のデータでは、これらのパラメータを訓練データから推定します：

$\hat{\pi}_k = N_k / N$ （グループ $$k$$ のサンプル数の割合）
$\hat{\mu}_k$ ：グループ $$k$$ のサンプル平均
$\hat{\Sigma}$ ：全グループのデータを使って計算した共分散行列（「プールされた共分散」）

LDA vs QDA—形が違ったらどうなる？

「山の形が同じ」という仮定は、いつも正しいとは限りません。例えば、若者と高齢者では、身長と体重の「ばらつき方」が違うかもしれません。

共分散行列がグループごとに異なる場合、二次判別分析（QDA）を使います：

\delta_k(x) = -\frac{1}{2}\log|\Sigma_k| - \frac{1}{2}(x - \mu_k)^T \Sigma_k^{-1}(x - \mu_k) + \log \pi_k

この式には $$x$$ の2次の項が残るため、決定境界は直線ではなく、曲線（楕円、双曲線など）になります。

LDAとQDAの選択は、シンプルさ vs 柔軟性のトレードオフです：

手法	パラメータ数	境界の形	特徴
LDA	少ない	直線	シンプル、過学習しにくい
QDA	多い	曲線	柔軟、データが多く必要

データが少ない場合や、グループ間で分布の形が実際に似ている場合は、LDAの方が良い結果を出すことが多いです。シンプルさは強みなのです。

発展—正則化判別分析（RDA）

LDAとQDAの「中間」を取る方法があります。正則化判別分析（RDA）は、両者を連続的に混ぜ合わせます。

\hat{\Sigma}_k(\alpha) = \alpha \hat{\Sigma}_k + (1 - \alpha) \hat{\Sigma}

パラメータ $\alpha$ を0から1の間で調整します：

$\alpha = 0$ ：完全にLDA（共通の形）
$\alpha = 1$ ：完全にQDA（グループごとの形）
中間の値：両者の混合

最適な $\alpha$ の値は、交差検証で決めます。高次元データや、サンプル数が少ない場合に特に有効です。

LDAによる次元削減—フィッシャーの判別

100個の変数を測定したとして、すべてが分類に役立つでしょうか？多くの場合、答えはNoです。

LDAには分類だけでなく、次元削減としての顔もあります。データを低次元に「押しつぶす」ことで、ノイズを除去し、本質的な構造を浮かび上がらせることができます。

$$K$$ 個のグループがある場合、その中心は最大で $$K-1$$ 次元の空間に収まります。つまり、100次元のデータでも、10グループなら9次元まで落とせるのです。

フィッシャーの判別分析は、「良い方向」を見つける方法です。良い方向とは？

\max_a \frac{a^T B a}{a^T W a}

分子 $$a^T B a$$ ：グループ間のばらつき（中心同士がどれくらい離れているか）
分母 $$a^T W a$$ ：グループ内のばらつき（各グループ内でどれくらい散らばっているか）

つまり、「グループ間では離れていて、グループ内ではまとまっている」方向を探すのです。

この方向にデータを射影することで、グループが最も分離された低次元表現が得られます。

LDAとロジスティック回帰の比較

LDAとロジスティック回帰は、どちらも直線で分類を行います。しかし、アプローチが根本的に異なります。

LDAは「データがどう生成されたか」をモデル化します：

各グループが正規分布に従うと仮定
分布全体の構造を活用できる（生成モデル）

ロジスティック回帰は「境界」を直接学習します：

データの分布には何の仮定も置かない
より柔軟だが、構造を活用しきれない可能性（判別モデル）

どちらが良いでしょうか？

正規分布の仮定が正しいとき、LDAの方が効率的です。同じデータ量でも、より正確な境界を学習できます。しかし、仮定が間違っていると、LDAは誤った答えを出すことがあります。

実際には、両者の性能は似ていることが多いです。データが正規分布から大きく外れていなければ、LDAは驚くほど頑健です。

まとめ—LDAの位置づけ

線形判別分析は、確率論的な美しさと実用性を兼ね備えた手法です。

LDAの強み：

シンプルで解釈しやすい
パラメータが少なく、過学習しにくい
次元削減にも使える
多クラス分類に自然に拡張できる

LDAの限界：

「山の形が同じ」という仮定
正規分布からの乖離に敏感な場合がある
非線形な境界は表現できない

興味深いことに、STATLOGプロジェクト（22種類のデータセットで様々な手法を比較した大規模研究）では、LDAまたはQDAが10データセットでトップ3に入りました。シンプルさが強みになることを示す好例です。

実用的なアドバイス：分類問題に取り組むとき、まずLDAを試してみてください。その結果を基準として、より複雑な手法が必要かどうかを判断できます。