4.3 線形判別分析(LDA)

メールがスパムかどうか、患者の検査値から病気かどうか、写真に写っているのが犬か猫か—私たちは日常的に「分類」という問題に直面しています。

線形判別分析(LDA)は、驚くほどシンプルな仮定から、この問いに答えます。各グループのデータが「山」のような形(正規分布)に従い、その山の「形」が同じなら、グループを分ける境界は直線になる—この美しい事実を、一緒に発見していきましょう。

分類問題とベイズの定理

病院で、ある患者の血液検査の結果が出ました。この患者は糖尿病でしょうか、それとも健康でしょうか?

直感的には、「糖尿病患者のデータに似ているかどうか」で判断したくなります。でも、ここで注意が必要です。

例えば、来院患者の90%が健康で、10%が糖尿病だとします。検査値がやや異常でも、「そもそも健康な人の方が多い」という事実を無視すると、誤診につながります。

ベイズの定理は、「データがどれくらいそのグループらしいか」と「そもそもそのグループがどれくらい多いか」を正しく組み合わせる方法を教えてくれます。

$$P(G = k | X = x) = \frac{f_k(x) \cdot \pi_k}{\sum_{\ell=1}^{K} f_\ell(x) \cdot \pi_\ell}$$

この式の意味を一つずつ見ていきましょう:

分母は「全グループの合計」で、確率の合計が1になるようにするための調整です。

事前確率と尤度を組み合わせて事後確率を計算する過程

正規分布の仮定—データの「山」

さて、ベイズの定理を使うには、「グループ $k$ のデータがどう分布しているか」を知る必要があります。ここでLDAは大胆な仮定をします:各グループのデータは正規分布に従う

正規分布(ガウス分布)は、おなじみの「釣り鐘型」の分布です。身長、体重、テストの点数など、多くの自然現象がこの形に従います。

2つ以上の変数を同時に扱う場合、これは「多変量ガウス分布」になり、2次元なら「山」のような形になります。

$$f_k(x) = \frac{1}{(2\pi)^{p/2}|\Sigma_k|^{1/2}} \exp\left(-\frac{1}{2}(x - \mu_k)^T \Sigma_k^{-1}(x - \mu_k)\right)$$

式は複雑に見えますが、ポイントは2つだけです:

  1. $\mu_k$(ミュー):山の「頂上」の位置。グループ $k$ の中心です。
  2. $\Sigma_k$(シグマ):山の「形」を決める行列。これを共分散行列と呼びます。

共分散行列とは何でしょうか?2つの変数(例えば身長と体重)が「一緒に動く傾向」を数値化したものです。身長が高い人は体重も重い傾向があります。この「一緒に動く度合い」が共分散です。

共分散行列が変わると、分布の形も変わります:

面白いことに、同じ密度の点を結ぶと楕円になります。これは後で決定境界を理解する際に重要になります。

2次元ガウス分布の等高線と共分散行列の関係

LDAの核心—「形が同じ」という仮定

ここからが面白いところです。

LDAでは、「すべてのグループの山が同じ形をしている」と仮定します。

$$\Sigma_1 = \Sigma_2 = \cdots = \Sigma_K = \Sigma$$

つまり、山の「頂上の位置」(中心)だけが違い、「形」は全グループで共通というわけです。

この仮定が何をもたらすか、見てみましょう。

2つのグループを比較するとき、「グループ1である確率」と「グループ2である確率」の比を取ることを考えます。この比の対数を取ったものを対数オッズ(log-odds)と呼びます。対数を取るのは、計算が楽になり、結果も解釈しやすくなるからです。

計算すると:

$$\log \frac{P(G = k | X = x)}{P(G = \ell | X = x)} = \underbrace{\log \frac{\pi_k}{\pi_\ell}}_{\text{事前確率の効果}} + \underbrace{x^T \Sigma^{-1}(\mu_k - \mu_\ell)}_{\text{データの位置の効果}} - \underbrace{\frac{1}{2}(\mu_k + \mu_\ell)^T \Sigma^{-1}(\mu_k - \mu_\ell)}_{\text{中心の位置の調整}}$$

注目すべきは、この式が $x$ について線形(1次式)であることです。

なぜでしょう?本来、正規分布の密度には $(x-\mu)^T\Sigma^{-1}(x-\mu)$ という $x$ の2次の項が含まれます。しかし、共分散が同じなら、2つのグループの2次の項がキャンセルし合うのです!

これが「線形判別分析」と呼ばれる理由です。「山の形が同じ」という仮定が、美しい直線境界を生み出すのです。

共通の共分散がもたらす線形境界

判別関数—分類を効率化する道具

毎回、確率を計算して比較するのは面倒です。そこで、分類を効率化する「判別関数」という道具を導入します。

各グループに対して、以下の関数を計算します:

$$\delta_k(x) = x^T \Sigma^{-1} \mu_k - \frac{1}{2} \mu_k^T \Sigma^{-1} \mu_k + \log \pi_k$$

そして、この値が最大のグループに分類します:

$$G(x) = \arg\max_k \delta_k(x)$$

判別関数の各項を見てみましょう:

  1. $x^T \Sigma^{-1} \mu_k$:データ $x$ がグループ中心 $\mu_k$ にどれくらい「近い」か。内積のような計算です。
  2. $-\frac{1}{2} \mu_k^T \Sigma^{-1} \mu_k$:グループ中心の位置による調整項。中心が原点から遠いグループにペナルティを与えます。
  3. $\log \pi_k$事前確率のボーナス。サンプルが多いグループは有利になります。

実際のデータでは、これらのパラメータを訓練データから推定します:

判別関数の値が最大のクラスに分類される過程

LDA vs QDA—形が違ったらどうなる?

「山の形が同じ」という仮定は、いつも正しいとは限りません。例えば、若者と高齢者では、身長と体重の「ばらつき方」が違うかもしれません。

共分散行列がグループごとに異なる場合、二次判別分析(QDA)を使います:

$$\delta_k(x) = -\frac{1}{2}\log|\Sigma_k| - \frac{1}{2}(x - \mu_k)^T \Sigma_k^{-1}(x - \mu_k) + \log \pi_k$$

この式には $x$ の2次の項が残るため、決定境界は直線ではなく、曲線(楕円、双曲線など)になります。

LDAとQDAの選択は、シンプルさ vs 柔軟性のトレードオフです:

手法パラメータ数境界の形特徴
LDA少ない直線シンプル、過学習しにくい
QDA多い曲線柔軟、データが多く必要

データが少ない場合や、グループ間で分布の形が実際に似ている場合は、LDAの方が良い結果を出すことが多いです。シンプルさは強みなのです。

共分散が同じ場合(線形境界)と異なる場合(二次境界)の比較

発展—正則化判別分析(RDA)

LDAとQDAの「中間」を取る方法があります。正則化判別分析(RDA)は、両者を連続的に混ぜ合わせます。

$$\hat{\Sigma}_k(\alpha) = \alpha \hat{\Sigma}_k + (1 - \alpha) \hat{\Sigma}$$

パラメータ $\alpha$ を0から1の間で調整します:

最適な $\alpha$ の値は、交差検証で決めます。高次元データや、サンプル数が少ない場合に特に有効です。

RDAがLDAとQDAを補間する様子

LDAによる次元削減—フィッシャーの判別

100個の変数を測定したとして、すべてが分類に役立つでしょうか?多くの場合、答えはNoです。

LDAには分類だけでなく、次元削減としての顔もあります。データを低次元に「押しつぶす」ことで、ノイズを除去し、本質的な構造を浮かび上がらせることができます。

$K$ 個のグループがある場合、その中心は最大で $K-1$ 次元の空間に収まります。つまり、100次元のデータでも、10グループなら9次元まで落とせるのです。

フィッシャーの判別分析は、「良い方向」を見つける方法です。良い方向とは?

$$\max_a \frac{a^T B a}{a^T W a}$$

つまり、「グループ間では離れていて、グループ内ではまとまっている」方向を探すのです。

この方向にデータを射影することで、グループが最も分離された低次元表現が得られます。

フィッシャーの判別による次元削減

LDAとロジスティック回帰の比較

LDAロジスティック回帰は、どちらも直線で分類を行います。しかし、アプローチが根本的に異なります。

LDAは「データがどう生成されたか」をモデル化します:

ロジスティック回帰は「境界」を直接学習します:

どちらが良いでしょうか?

正規分布の仮定が正しいとき、LDAの方が効率的です。同じデータ量でも、より正確な境界を学習できます。しかし、仮定が間違っていると、LDAは誤った答えを出すことがあります。

実際には、両者の性能は似ていることが多いです。データが正規分布から大きく外れていなければ、LDAは驚くほど頑健です。

LDA(分布をモデル化)とロジスティック回帰(境界を直接学習)の対比

まとめ—LDAの位置づけ

線形判別分析は、確率論的な美しさと実用性を兼ね備えた手法です。

LDAの強み

LDAの限界

興味深いことに、STATLOGプロジェクト(22種類のデータセットで様々な手法を比較した大規模研究)では、LDAまたはQDAが10データセットでトップ3に入りました。シンプルさが強みになることを示す好例です。

実用的なアドバイス:分類問題に取り組むとき、まずLDAを試してみてください。その結果を基準として、より複雑な手法が必要かどうかを判断できます。

LDAの全体像—確率分布から線形境界へ