6.7 放射基底関数とカーネル

複雑な曲線を、シンプルな「山」の重ね合わせで表現できるとしたら? 3つの山、5つの山、10の山——それだけで、どんな関数も近似できる。

この直感的なアイデアが放射基底関数(RBF)だ。 そして驚くことに、このアプローチを突き詰めると、6章の冒頭で学んだ カーネル平滑化と全く同じ式に行き着く。

異なる道を辿ったのに、同じ場所に到達する——これが数学の美しさだ。

このページで学ぶこと:

  • 放射基底関数(RBF)——「山」の重ね合わせで関数を表現する
  • 3つのパラメータと最適化の難しさ——なぜ全部同時に求めるのが難しいか
  • 賢い分離戦略——教師なし学習で中心を決める2段階アプローチ
  • 穴の問題と正規化——どんな場所でも安定した予測をするために
  • Nadaraya-Watson推定との統一——2つの手法が実は同じだという驚き
  • 手法の全体像——カーネル平滑化、RBF、SVMをつなぐ橋

二つのアプローチの出会い

5章では、関数を「基底関数の線形結合」で表現するアイデアを学んだ:

$$f(x) = \sum_{j=1}^{M} \beta_j h_j(x)$$

多項式、スプライン、フーリエ基底——これらはすべてこの形式に収まる。 一方、6章では「カーネル平滑化」を学んだ。 目標点の近くにあるデータに重みをかけて局所的にフィットする方法だ。

ここで自然な問いが生まれる。「カーネル関数そのものを基底関数として使ったらどうなる?」

空間のさまざまな位置 ξj を中心として、そこに1つずつカーネル関数を配置する。 それぞれがその位置の「局所的な形」を担う。 これを組み合わせれば、複雑な関数を表現できる—— これが放射基底関数(Radial Basis Function, RBF)の発想だ。

複数のGaussian基底関数が重なり合い、合計として複雑な曲線を形成するアニメーション
複数のGaussian「山」(青)を重ね合わせると、複雑な形の関数(黄)が作れる

数式で書けば:

$$f(x) = \sum_{j=1}^{M} K_{\lambda_j}(\xi_j, x) \beta_j = \sum_{j=1}^{M} D\!\left(\frac{\|x - \xi_j\|}{\lambda_j}\right) \beta_j$$

「距離が同じなら同じ値」という性質から「放射(Radial)」と呼ばれる。 中心から等距離の点は、どの方向にあっても同じ重みを持つ。

この式の形、どこかで見たことがあると感じたなら正解だ。 Section 5でその正体を明かそう。

3つのパラメータと最適化の難しさ

RBFモデルには、3種類のパラメータがある:

  1. 中心の位置 ξj——どこに「こぶ」を置くか
  2. スケール λj——「こぶ」の広さ
  3. 係数 βj——「こぶ」の高さ

理想を言えば、この3つをすべてデータから最適化したい。 しかし、ここに落とし穴がある。 Gaussianカーネルを使った場合の最小化問題は:

$$\min_{\{\lambda_j, \xi_j, \beta_j\}} \sum_{i=1}^{N} \left\{ y_i - \beta_0 - \sum_{j=1}^{M} \beta_j \exp\!\left(-\frac{(x_i - \xi_j)^T(x_i - \xi_j)}{\lambda_j^2}\right) \right\}^2$$

この最適化問題は非凸だ。 「非凸」とは、山と谷が複数ある地形のこと——複数の局所最小値が存在し、 どの「こぶ」の初期位置から始めるかによって、最終的な解が全く変わってしまう。

非凸な損失関数の等高線図。赤と青の2点が異なる谷に収束するアニメーション
非凸な損失曲面には複数の谷がある。どこから始めるかで、異なる(局所)最小値に到達してしまう

この難しさは、正則化を使っても解決しない。 そもそも問題の構造が複雑なのだ。 これはシグモイド関数を使うニューラルネットワークの訓練と全く同じ難しさだ。

実用的な解決策として、中心とスケールの推定と係数の推定を分離するアプローチが使われる。

直感的に言えば:
「どこに山を置くか(中心)さえ決まれば、各山の高さ(係数)を求めるのは普通の線形回帰になる」—— これが分離戦略の本質だ。

賢い分離戦略 — 教師なし学習で中心を決める

全パラメータを同時最適化するのは難しい。 代わりに、中心とスケールをデータの分布から決め、係数だけを線形回帰で求める方法がある。 この2段階アプローチを見てみよう。

ステップ1:データの分布から中心を見つける

データ X の周辺分布をGaussian混合モデル(GMM)でモデル化する。 GMMはデータを「いくつかのクラスターの重ね合わせ」として捉え、各クラスターの中心と広がりを推定する:

$$\text{データの密度} \approx \sum_{j=1}^{M} \pi_j \phi(x;\, \mu_j, \sigma_j^2)$$

ここで得られた混合成分の平均 μj を中心 ξj、 分散 σj² からスケール λj を設定する。

データ点から楕円クラスタが形成され、中心が特定されてRBF基底が配置される2段階プロセス
左:データの密集地点にクラスタ(楕円)を当てはめ、中心(×)を特定する。右:その中心位置にGaussian基底を配置したRBFモデル

ステップ2:中心を固定して係数を線形回帰で求める

中心 ξj とスケール λj を固定した後、係数 βj は単純な最小二乗問題になる:

$$\min_{\beta} \|y - H\beta\|^2, \quad H_{ij} = D\!\left(\frac{\|x_i - \xi_j\|}{\lambda_j}\right)$$

行列 H の各要素 Hij は、「i番目のデータ点が j番目の中心からどれだけ近いか」を表す。 この行列さえ作れば、あとは通常の線形回帰と同じだ。

なぜこれがうまくいくのか?
カーネル中心はデータが多い場所、つまり予測が重要な場所に自然に配置される。 データが少ない場所には中心が置かれないため、「無駄な」基底関数が生まれない。 データの構造そのものが、どこにRBFを配置すべきかを教えてくれる。

穴の問題と正規化の解決策

固定幅(すべての λj = λ)のRBFには厄介な問題がある。 カーネル中心がまばらな領域では、どの基底関数も大きな値を持たず 「穴」ができてしまう。

具体的に言うと:データが密集している領域ではカーネルが重なり合い滑らかな予測ができるが、 データがまばらな領域では全てのカーネルが小さな値を返し、予測が不安定になる。 高次元では特に深刻だ。

非正規化RBF(左)の穴問題と正規化RBF(右)の均一な値を対比するアニメーション
左(非正規化):2つの山の間に「穴」(赤い低い領域)ができる。右(正規化):どの点でも合計が1になり、穴がない

解決策は正規化だ:

$$h_j(x) = \frac{D(\|x - \xi_j\|/\lambda)}{\sum_{k=1}^{M} D(\|x - \xi_k\|/\lambda)}$$

この正規化RBF基底は、 どの点でも全基底関数の合計が1になることを保証する:

$$\sum_{j=1}^{M} h_j(x) = 1 \quad \text{(すべての } x \text{ に対して)}$$

これにより:

正規化のアイデアはシンプルだ:「どこにいても、何かが大きな値を持つようにする」。 分母を全カーネルの合計にすることで、どの地点でも相対的な重みが意味を持つようになる。

Nadaraya-Watson推定との美しい関係

正規化RBF基底を使ったモデルを、特別な設定で見てみよう。 各学習データ点 xi に一つずつ基底関数を配置—— つまり「全データ点を中心として使う」場合だ。

すると予測式は:

$$f(x_0) = \sum_{i=1}^{N} y_i h_i(x_0) = \sum_{i=1}^{N} y_i \frac{K_\lambda(x_0, x_i)}{\sum_{k=1}^{N} K_\lambda(x_0, x_k)}$$

これは……どこかで見た形だ。 第6章冒頭で学んだカーネル平滑化Nadaraya-Watson推定量そのものだ!

カーネル平滑化(上)とRBF展開(下)が同じ曲線に収束するアニメーション
上(カーネル平滑化)と下(RBF展開)、異なる計算方法が全く同じ曲線(黄)に収束する

つまり:

この2つは実は同じ手法の異なる見方だった。 同じものを異なる角度から見ている——数学の美しさがここにある。

この統一的な視点から、カーネル法(第12章のSVMを含む)と 局所的学習手法の深い関係が見えてくる。 SVMのカーネルトリックも、本質的にはRBFと同じ「距離に基づく重み」のアイデアを共有している。

まとめ — 手法の統一的な景色

6.7節で学んだことを振り返ろう。 RBFは一見シンプルなアイデアだが、その背後には深い統一性がある。

各手法(距離ベース重み、カーネル平滑化、RBF、SVM)の関係性をノードグラフで示すアニメーション
全ての手法は「距離に基づく重み」というコアアイデアを共有している。カーネル平滑化とRBFは双方向の矢印で示される通り、同一の手法だ

手法の系譜

手法基底最適化
カーネル平滑化なし(局所重み付け)なし(直接計算)
RBF回帰カーネル関数非凸(全パラメータ)→分離戦略
正規化RBF正規化カーネル線形(係数のみ)
Nadaraya-Watson各データ点に一つなし(直接計算)

全てが「距離に基づく重み」というコアアイデアを共有している。

RBFが重要な理由

RBFが重要な理由は技術的な性能だけでなく、概念的な橋渡けにある:

数学の美しさは、異なる角度から同じ真実が見えることにある。 RBFはその典型例だ——基底展開、カーネル平滑化、そしてサポートベクターマシン。 異なる名前を持つこれらの手法が、実は「距離に基づく重み」という一つのアイデアを共有している。