4.3 線形判別分析(LDA)
メールがスパムかどうか、患者の検査値から病気かどうか、写真に写っているのが犬か猫か—私たちは日常的に「分類」という問題に直面しています。
線形判別分析(LDA)は、驚くほどシンプルな仮定から、この問いに答えます。各グループのデータが「山」のような形(正規分布)に従い、その山の「形」が同じなら、グループを分ける境界は直線になる—この美しい事実を、一緒に発見していきましょう。
分類問題とベイズの定理
病院で、ある患者の血液検査の結果が出ました。この患者は糖尿病でしょうか、それとも健康でしょうか?
直感的には、「糖尿病患者のデータに似ているかどうか」で判断したくなります。でも、ここで注意が必要です。
例えば、来院患者の90%が健康で、10%が糖尿病だとします。検査値がやや異常でも、「そもそも健康な人の方が多い」という事実を無視すると、誤診につながります。
ベイズの定理は、「データがどれくらいそのグループらしいか」と「そもそもそのグループがどれくらい多いか」を正しく組み合わせる方法を教えてくれます。
この式の意味を一つずつ見ていきましょう:
- $P(G = k | X = x)$:データ $x$ が観測されたとき、グループ $k$ である確率。これを事後確率と呼びます。「データを見た後の確率」という意味です。
- $\pi_k$:グループ $k$ が全体に占める割合。これを事前確率と呼びます。「データを見る前から分かっている確率」という意味です。先ほどの例では、健康な人の事前確率が0.9、糖尿病の事前確率が0.1です。
- $f_k(x)$:グループ $k$ のデータが、値 $x$ をどれくらい取りやすいか。専門的には密度関数と呼びますが、「そのグループにとってどれくらい自然な値か」を表す数値だと考えてください。
分母は「全グループの合計」で、確率の合計が1になるようにするための調整です。

正規分布の仮定—データの「山」
さて、ベイズの定理を使うには、「グループ $k$ のデータがどう分布しているか」を知る必要があります。ここでLDAは大胆な仮定をします:各グループのデータは正規分布に従う。
正規分布(ガウス分布)は、おなじみの「釣り鐘型」の分布です。身長、体重、テストの点数など、多くの自然現象がこの形に従います。
2つ以上の変数を同時に扱う場合、これは「多変量ガウス分布」になり、2次元なら「山」のような形になります。
式は複雑に見えますが、ポイントは2つだけです:
- $\mu_k$(ミュー):山の「頂上」の位置。グループ $k$ の中心です。
- $\Sigma_k$(シグマ):山の「形」を決める行列。これを共分散行列と呼びます。
共分散行列とは何でしょうか?2つの変数(例えば身長と体重)が「一緒に動く傾向」を数値化したものです。身長が高い人は体重も重い傾向があります。この「一緒に動く度合い」が共分散です。
共分散行列が変わると、分布の形も変わります:
- 対角成分(自分自身との共分散=分散)が大きいと、その方向に広がる
- 非対角成分(異なる変数間の共分散)があると、山が「傾く」
面白いことに、同じ密度の点を結ぶと楕円になります。これは後で決定境界を理解する際に重要になります。

LDAの核心—「形が同じ」という仮定
ここからが面白いところです。
LDAでは、「すべてのグループの山が同じ形をしている」と仮定します。
つまり、山の「頂上の位置」(中心)だけが違い、「形」は全グループで共通というわけです。
この仮定が何をもたらすか、見てみましょう。
2つのグループを比較するとき、「グループ1である確率」と「グループ2である確率」の比を取ることを考えます。この比の対数を取ったものを対数オッズ(log-odds)と呼びます。対数を取るのは、計算が楽になり、結果も解釈しやすくなるからです。
計算すると:
注目すべきは、この式が $x$ について線形(1次式)であることです。
なぜでしょう?本来、正規分布の密度には $(x-\mu)^T\Sigma^{-1}(x-\mu)$ という $x$ の2次の項が含まれます。しかし、共分散が同じなら、2つのグループの2次の項がキャンセルし合うのです!
これが「線形判別分析」と呼ばれる理由です。「山の形が同じ」という仮定が、美しい直線境界を生み出すのです。

判別関数—分類を効率化する道具
毎回、確率を計算して比較するのは面倒です。そこで、分類を効率化する「判別関数」という道具を導入します。
各グループに対して、以下の関数を計算します:
そして、この値が最大のグループに分類します:
判別関数の各項を見てみましょう:
- $x^T \Sigma^{-1} \mu_k$:データ $x$ がグループ中心 $\mu_k$ にどれくらい「近い」か。内積のような計算です。
- $-\frac{1}{2} \mu_k^T \Sigma^{-1} \mu_k$:グループ中心の位置による調整項。中心が原点から遠いグループにペナルティを与えます。
- $\log \pi_k$:事前確率のボーナス。サンプルが多いグループは有利になります。
実際のデータでは、これらのパラメータを訓練データから推定します:
- $\hat{\pi}_k = N_k / N$(グループ $k$ のサンプル数の割合)
- $\hat{\mu}_k$:グループ $k$ のサンプル平均
- $\hat{\Sigma}$:全グループのデータを使って計算した共分散行列(「プールされた共分散」)

LDA vs QDA—形が違ったらどうなる?
「山の形が同じ」という仮定は、いつも正しいとは限りません。例えば、若者と高齢者では、身長と体重の「ばらつき方」が違うかもしれません。
共分散行列がグループごとに異なる場合、二次判別分析(QDA)を使います:
この式には $x$ の2次の項が残るため、決定境界は直線ではなく、曲線(楕円、双曲線など)になります。
LDAとQDAの選択は、シンプルさ vs 柔軟性のトレードオフです:
| 手法 | パラメータ数 | 境界の形 | 特徴 |
|---|---|---|---|
| LDA | 少ない | 直線 | シンプル、過学習しにくい |
| QDA | 多い | 曲線 | 柔軟、データが多く必要 |
データが少ない場合や、グループ間で分布の形が実際に似ている場合は、LDAの方が良い結果を出すことが多いです。シンプルさは強みなのです。

発展—正則化判別分析(RDA)
LDAとQDAの「中間」を取る方法があります。正則化判別分析(RDA)は、両者を連続的に混ぜ合わせます。
パラメータ $\alpha$ を0から1の間で調整します:
- $\alpha = 0$:完全にLDA(共通の形)
- $\alpha = 1$:完全にQDA(グループごとの形)
- 中間の値:両者の混合
最適な $\alpha$ の値は、交差検証で決めます。高次元データや、サンプル数が少ない場合に特に有効です。

LDAによる次元削減—フィッシャーの判別
100個の変数を測定したとして、すべてが分類に役立つでしょうか?多くの場合、答えはNoです。
LDAには分類だけでなく、次元削減としての顔もあります。データを低次元に「押しつぶす」ことで、ノイズを除去し、本質的な構造を浮かび上がらせることができます。
$K$ 個のグループがある場合、その中心は最大で $K-1$ 次元の空間に収まります。つまり、100次元のデータでも、10グループなら9次元まで落とせるのです。
フィッシャーの判別分析は、「良い方向」を見つける方法です。良い方向とは?
- 分子 $a^T B a$:グループ間のばらつき(中心同士がどれくらい離れているか)
- 分母 $a^T W a$:グループ内のばらつき(各グループ内でどれくらい散らばっているか)
つまり、「グループ間では離れていて、グループ内ではまとまっている」方向を探すのです。
この方向にデータを射影することで、グループが最も分離された低次元表現が得られます。

LDAとロジスティック回帰の比較
LDAとロジスティック回帰は、どちらも直線で分類を行います。しかし、アプローチが根本的に異なります。
LDAは「データがどう生成されたか」をモデル化します:
ロジスティック回帰は「境界」を直接学習します:
- データの分布には何の仮定も置かない
- より柔軟だが、構造を活用しきれない可能性(判別モデル)
どちらが良いでしょうか?
正規分布の仮定が正しいとき、LDAの方が効率的です。同じデータ量でも、より正確な境界を学習できます。しかし、仮定が間違っていると、LDAは誤った答えを出すことがあります。
実際には、両者の性能は似ていることが多いです。データが正規分布から大きく外れていなければ、LDAは驚くほど頑健です。

まとめ—LDAの位置づけ
線形判別分析は、確率論的な美しさと実用性を兼ね備えた手法です。
LDAの強み:
LDAの限界:
- 「山の形が同じ」という仮定
- 正規分布からの乖離に敏感な場合がある
- 非線形な境界は表現できない
興味深いことに、STATLOGプロジェクト(22種類のデータセットで様々な手法を比較した大規模研究)では、LDAまたはQDAが10データセットでトップ3に入りました。シンプルさが強みになることを示す好例です。
実用的なアドバイス:分類問題に取り組むとき、まずLDAを試してみてください。その結果を基準として、より複雑な手法が必要かどうかを判断できます。
