独立成分分析(ICA)— カクテルパーティーから信号を分離する

複数のマイクが異なる話者の声を同時に拾っている。 「混ぜた後の録音」だけから、誰が何を話しているかを分離できるか? 「統計的独立性」と「非ガウス性」という2つの鍵が、この謎を解く。

カクテルパーティー問題 — 混合から源へ

パーティー会場を想像してほしい。3人の人が同時に話し、3台のマイクがそれぞれ異なる位置に置かれている。 各マイクは3人全員の声を拾うが、距離に応じて混合比率が異なる

マイク1の録音 = 0.7×声A + 0.2×声B + 0.1×声C
マイク2の録音 = 0.3×声A + 0.5×声B + 0.2×声C
マイク3の録音 = 0.1×声A + 0.3×声B + 0.6×声C

3つの源信号が混合行列を通じて3つの観測信号に変換されるプロセス
左:3つの独立した源信号(青・黄・緑の異なる波形)、中央:混合行列 A、右:混合された観測信号

この3本の録音データだけから、元の3つの声を取り出せるか?

一見不可能に思える。しかし、元の声が互いに「統計的に独立」という仮定を使えば可能になる。 これが独立成分分析(ICA)の出発点だ。

数学的には、観測データ $X$(各マイクの録音)を次の形で表す:

$$X = AS$$

ここで $S$ は元の源(各話者の声)、$A$ は混合行列(マイクの位置関係)だ。 ICAの目標は、$X$ だけから$A$$S$ の両方を推定すること。

$$X = AS \quad \text{または} \quad S = A^{-1}X = WX$$

これを「ブラインド源分離(Blind Source Separation)」と呼ぶ——$A$ がわからなくても分離できる、という意味だ。

なぜPCAでは失敗するのか — ガウス性の罠

「とりあえずPCAで試してみよう」という発想は自然だ。主成分分析(PCA)も「データを少数の成分に分解する」手法だから。

しかし、PCAはICA問題を解けない。その理由は深い。

PCAが行うのは「分散が最大の方向を見つける」こと。これは「分散共分散行列の固有ベクトル」を求めることと同じだ。 つまり、PCAは2次の統計量(分散・共分散)だけを使う。

ガウス分布(左)は回転しても形が変わらないが、非ガウス分布(右)は回転すると形が変わる
左:ガウス分布の点群は回転しても外見が変わらない(回転不変)。右:非ガウス分布は回転すると形が明確に変わる(方向が特定可能)

問題は:ガウス分布は2次の統計量だけで完全に決まる

もし源信号がガウス分布に従うなら、$S' = RS$$R$は任意の直交行列)もガウス分布で、$X$ の分布は $S'$ から生成されたものと全く同じになる。 つまり、どんな回転でも同じデータを説明できてしまう——ガウス性のせいで源信号を一意に特定できない

$$\text{PCA}: \text{分散最大化} \leftrightarrow \text{2次統計量のみ使用}$$
$$\text{ICA}: \text{非ガウス性最大化} \leftrightarrow \text{高次統計量を活用}$$

ここで「エントロピー」という概念が登場する。 エントロピーとは「不確実さの度合い」のことだ。 コインの表裏(50:50)は高エントロピー(予測困難)、 不正コイン(99:1)は低エントロピー(ほぼ予測可能)というイメージだ。

実はガウス分布は「同じ分散を持つ全ての分布の中で最大エントロピー」—— つまり最も「無秩序で予測困難な」分布だ。 裏を返せば:非ガウス分布はガウス分布より「構造がある(エントロピーが低い)」。 この「構造」こそが、ICAが独立成分を特定するための手がかりになる。

ガウス分布を他の分布と区別するには、3次以上のモーメント(歪度・尖度など)が必要になる。ICAはこれを利用する。

非ガウス性を測る — ネゲントロピー

ICAを実現するには「どれだけガウスから外れているか」を定量的に測る指標が必要だ。 これをネゲントロピー(Negentropy)と呼ぶ。

まず情報理論の基本概念「エントロピー」を思い出そう。 確率変数 $Y$ の(微分)エントロピーは:

$$H(Y) = -\int g(y) \log g(y) \, dy$$

重要な定理:同じ分散を持つ分布の中で、ガウス分布のエントロピーが最大。 これはつまり「ガウス分布は最も『無秩序』な分布」という意味だ。 非ガウス分布は何らかの「構造」を持っており、エントロピーが低い。

ガウス分布(上)は高エントロピー、非ガウス分布(下)は低エントロピーであることを示す比較
上:ガウス分布(なだらかな釣鐘形、高エントロピー)。下:非ガウス分布(尖った峰・厚い裾、低エントロピー)。エントロピーの差がネゲントロピー J(Y) を表す

ネゲントロピーはこの「ガウスから外れた分だけエントロピーが低い」量を測る:

$$J(Y) = H(Z) - H(Y) \geq 0$$

ここで $Z$$Y$ と同じ分散を持つガウス変数。$J(Y) \geq 0$ で、$Y$ がガウスのとき$J(Y) = 0$

ネゲントロピーが大きい → 非ガウス性が強い → 源信号の候補として有望。

実用的な近似(FastICA): 直接エントロピーを計算するのは難しいため、実用的には次の近似を使う:

$$J(Y) \approx [E\{G(Y)\} - E\{G(Z)\}]^2$$

ここで $G(u) = \frac{1}{a}\log\cosh(au)$$1 \leq a \leq 2$)は非線形関数だ。$\log\cosh(u)$$|u|$ が大きいとき(裾が厚い・細い)に敏感に反応し、 分布の「ガウスからのずれ」を効率よく検出できる。 直感的には「尖度(peakedness)を滑らかに測る関数」と理解すればよい。

FastICAアルゴリズム — 非ガウス性を最大化する方向を探す

ICAは「投影した方向のデータが最も非ガウスになる方向を見つける」 問題として定式化できる。

これを探索的射影追跡(Exploratory Projection Pursuit)とも呼ぶ。 Friedman と Tukey(1974年)が提案したこの考え方は、ICAとは独立に発展したが、 実は同じ数学的構造を持つ。

FastICAアルゴリズムの考え方

  1. データを事前処理(白色化:共分散行列を単位行列にする)
  2. 非ガウス性を最大化する方向ベクトル $w$ を求める
  3. 見つかった方向は源信号の一つに対応する行 $W = A^{-1}$ の一行
  4. 直交化して次の方向を探す(1つ目と独立な2つ目の源を探す)
2D散布図上で投影軸が回転し、非ガウス性が最大になる方向で緑の矢印として固定されるプロセス
散布図上の非ガウス的な点群に対し、投影軸を徐々に回転させて最も非ガウス(尖った分布)になる方向を探索する。緑の矢印が最終的に発見された独立成分の方向

各方向を見つけるのに使うのが近似ニュートン法(勾配法の一種):

$$w \leftarrow E\{Xg(w^TX)\} - E\{g'(w^TX)\}w$$
$$w \leftarrow w / \|w\|$$

第1項 $E\{Xg(w^TX)\}$ は「現在の方向 $w$ への投影が非ガウス的になるようデータ$X$ の方向に引っ張る力」だ。 第2項は方向ベクトルが「伸びすぎ」ないよう正規化する役割を持つ。 最後に $w$ を単位ベクトルに正規化する。 この繰り返しが「非ガウス性を最大化する方向」に高速収束する(「Fast」の由来)。

直感的なイメージ:高次元空間の中で、投影先として「最も尖った分布になる方向」を探し回っている。 見つかった方向が一つの「独立した源」に対応する。

ここで $g = G'$(選択した非線形関数の微分)。 収束後の $w$ が一つの独立成分の方向を与える。

分離の奇跡 — PCAとICAの比較

ここで、実際にICAPCAの違いを具体例で見てみよう。

2つの源信号 $s_1$$s_2$ がある:

これらを混合して観測データ $x_1, x_2$ を作る。 2つの一様分布の線形結合は、正方形の内部に一様に広がる分布になる。

同じ正方形点群に対してPCA(左)はダイアゴナル方向の赤い軸を、ICA(右)は正方形の辺方向の緑の軸を見つける
左:PCAの主軸(対角線方向・赤)は分散最大方向を捉えるが、元の源信号方向とは一致しない。右:ICAの軸(辺方向・緑)は正方形の形を捉え、元の一様分布に対応する方向を正しく見つける

PCAをこの $x_1, x_2$ に適用すると——失敗する。 PCAは楕円の主軸(「最も分散が大きい方向」と「それに直交する方向」)を見つけるが、 一様分布の正方形には「特別な主軸」がなく、元の信号の方向を見つけられない。

ICAを適用すると——成功する。 ICAは「一様分布」の非ガウス性(フラットな分布、ガウスよりも「薄い裾」)を検出し、 元の正方形の辺に沿う方向を見つける。これが元の源信号 $s_1, s_2$ の方向だ。

この視覚的な例が示す深い真実:PCAは形状(楕円)を見る。ICAは方向の独立性(非ガウス性)を見る

実応用 — EEGからの脳波分離

ICAは純粋な数学的美しさだけでなく、極めて重要な実用的応用を持つ。 最も有名な応用の一つが脳波(EEG)解析だ。

脳のさまざまな部位からの電気的活動は、頭皮上の複数の電極で混合して記録される。 これはまさに「カクテルパーティー問題」だ:

左側の複雑に混ざり合った3本の混合波形が、分離行列Wを経て右側の明確に異なる3本の独立源信号になるプロセス
左:複雑に混合された観測信号(白)。中央:分離行列 W。右:ICAによって分離された独立な源信号(青・黄・緑)

ICAは電極記録から:

  1. 真の脳活動成分を抽出
  2. 眼球運動や筋肉活動などのアーティファクトを分離・除去

できる。これにより、従来は「ノイズを含む汚い信号」として扱われていたEEGから、 各脳部位の純粋な活動を取り出せるようになった。

他にも:

ICAの限界と前提条件

ICAは強力だが、重要な前提条件と限界がある。

前提条件

  1. 源信号の統計的独立性: 最も重要な仮定。 現実には完全な独立は難しいが、近似的に成り立てば十分。
  2. 源信号の非ガウス性: ガウス分布の源信号は原理的に分離不能。 ただし高次元データでは各源が正確にガウスになることは稀。
  3. 源の数 ≤ 観測の数: 観測変数の数が源信号の数以上必要(過決定または完全決定)。
ICAの2つの不確定性(スケール・順序)を示す4つのパネル。全て同一の観測データに対応する
左上:元の解(青・黄の2本の波形)。右上:スケールが変換された解(データは同じ)。左下:順序が入れ替わった解(データは同じ)。右下:両方の変換後(データは同じ)。これら4つは全て等価

根本的な不確定性(ICAの宿命)

どんなに完璧にICAを実行しても、決して取り除けない曖昧さが2つある:

  1. スケールの不確定性: 各源信号の振幅は特定できない。$S' = DS$$D$は対角行列)と$A' = AD^{-1}$ が作るデータは$A$$S$ が作るデータと区別不能。
  2. 順序の不確定性: 源信号の番号順は決められない。 「1番目の源」と「2番目の源」の区別は恣意的。
$$\text{スケール不確定性}: \quad A' = AD^{-1}, \quad S' = DS \Rightarrow X = A'S'$$
$$\text{順序不確定性}: \quad A' = AP^{-1}, \quad S' = PS \Rightarrow X = A'S'$$

ここで $D$ は対角行列(スケール変換)、$P$ は置換行列(順序入れ替え)。

これらはICAの「構造的な宿命」であり、除去できない。 しかし実用上は、スケールを固定して順序を何らかの基準で決めれば問題ない。

まとめ — 「独立性」が世界を照らす

ICAから学んだことを振り返ろう。

ICAの哲学的核心

統計学の多くの手法は「類似性」「距離」「分散」を使う。 ICAは全く異なる原理——統計的独立性——を使う。

「このデータは独立した複数の源から生まれた」という仮定は、単純に見えて革命的だ。 これにより、$X = AS$ という方程式から$A$$S$ を同時に推定できる。

同じ2クラス散布図に対してPCA(赤矢印)・LDA(青矢印)・ICA(緑矢印)が異なる方向を指す比較
同じデータに対して、PCA(赤)は分散最大方向、LDA(青)はクラス分離方向、ICA(緑)は非ガウス性最大方向と、それぞれ異なる軸を見出す

他の手法との対比

手法何を最大化/最小化?利用する統計量
PCA分散2次(共分散)
LDAクラス間/クラス内分散比2次(共分散)
ICA非ガウス性(ネゲントロピー)高次(尖度・歪度)
k-NN距離—(ノンパラメトリック)

どんな問題でICAが輝くか

  1. 信号が混合している: 音声・脳波・心電図など
  2. 源が独立であると信じられる: 独立した物理的プロセス
  3. 源が非ガウスである: 実際の自然信号は多くが非ガウス

ICAが輝かない場合

データサイエンスの世界では、ICAはニッチだが深い位置を占める。 「混合を解く」という逆問題に、数学的優雅さと実用的パワーを兼ね備えた解を与える。

それはまるで、カクテルパーティーの喧騒の中から、たった一人の声を正確に抽出するようなことだ——数学の魔法によって