6.7 放射基底関数とカーネル

複雑な曲線を、シンプルな「山」の重ね合わせで表現できるとしたら？ 3つの山、5つの山、10の山——それだけで、どんな関数も近似できる。

この直感的なアイデアが放射基底関数（RBF）だ。そして驚くことに、このアプローチを突き詰めると、6章の冒頭で学んだカーネル平滑化と全く同じ式に行き着く。

異なる道を辿ったのに、同じ場所に到達する——これが数学の美しさだ。

このページで学ぶこと：

放射基底関数（RBF）——「山」の重ね合わせで関数を表現する
3つのパラメータと最適化の難しさ——なぜ全部同時に求めるのが難しいか
賢い分離戦略——教師なし学習で中心を決める2段階アプローチ
穴の問題と正規化——どんな場所でも安定した予測をするために
Nadaraya-Watson推定との統一——2つの手法が実は同じだという驚き
手法の全体像——カーネル平滑化、RBF、SVMをつなぐ橋

二つのアプローチの出会い

5章では、関数を「基底関数の線形結合」で表現するアイデアを学んだ：

f(x) = \sum_{j=1}^{M} \beta_j h_j(x)

多項式、スプライン、フーリエ基底——これらはすべてこの形式に収まる。一方、6章では「カーネル平滑化」を学んだ。目標点の近くにあるデータに重みをかけて局所的にフィットする方法だ。

ここで自然な問いが生まれる。「カーネル関数そのものを基底関数として使ったらどうなる？」

空間のさまざまな位置 ξ_j を中心として、そこに1つずつカーネル関数を配置する。それぞれがその位置の「局所的な形」を担う。これを組み合わせれば、複雑な関数を表現できる—— これが放射基底関数（Radial Basis Function, RBF）の発想だ。

複数のGaussian基底関数が重なり合い、合計として複雑な曲線を形成するアニメーション — 複数のGaussian「山」（青）を重ね合わせると、複雑な形の関数（黄）が作れる

数式で書けば：

f(x) = \sum_{j=1}^{M} K_{\lambda_j}(\xi_j, x) \beta_j = \sum_{j=1}^{M} D\!\left(\frac{\|x - \xi_j\|}{\lambda_j}\right) \beta_j

ξ_j：各基底関数の「中心」（プロトタイプ）——山のてっぺんの位置
λ_j：各中心の「幅」（スケールパラメータ）——山の広さ
D(·)：距離関数（通常はGaussian密度）——山の形
β_j：各基底関数の係数——山の高さ

「距離が同じなら同じ値」という性質から「放射（Radial）」と呼ばれる。中心から等距離の点は、どの方向にあっても同じ重みを持つ。

この式の形、どこかで見たことがあると感じたなら正解だ。 Section 5でその正体を明かそう。

3つのパラメータと最適化の難しさ

RBFモデルには、3種類のパラメータがある：

中心の位置 ξ_j——どこに「こぶ」を置くか
スケール λ_j——「こぶ」の広さ
係数 β_j——「こぶ」の高さ

理想を言えば、この3つをすべてデータから最適化したい。しかし、ここに落とし穴がある。 Gaussianカーネルを使った場合の最小化問題は：

\min_{\{\lambda_j, \xi_j, \beta_j\}} \sum_{i=1}^{N} \left\{ y_i - \beta_0 - \sum_{j=1}^{M} \beta_j \exp\!\left(-\frac{(x_i - \xi_j)^T(x_i - \xi_j)}{\lambda_j^2}\right) \right\}^2

この最適化問題は非凸だ。「非凸」とは、山と谷が複数ある地形のこと——複数の局所最小値が存在し、どの「こぶ」の初期位置から始めるかによって、最終的な解が全く変わってしまう。

非凸な損失関数の等高線図。赤と青の2点が異なる谷に収束するアニメーション — 非凸な損失曲面には複数の谷がある。どこから始めるかで、異なる（局所）最小値に到達してしまう

この難しさは、正則化を使っても解決しない。そもそも問題の構造が複雑なのだ。これはシグモイド関数を使うニューラルネットワークの訓練と全く同じ難しさだ。

実用的な解決策として、中心とスケールの推定と係数の推定を分離するアプローチが使われる。

直感的に言えば：
「どこに山を置くか（中心）さえ決まれば、各山の高さ（係数）を求めるのは普通の線形回帰になる」—— これが分離戦略の本質だ。

賢い分離戦略 — 教師なし学習で中心を決める

全パラメータを同時最適化するのは難しい。代わりに、中心とスケールをデータの分布から決め、係数だけを線形回帰で求める方法がある。この2段階アプローチを見てみよう。

ステップ1：データの分布から中心を見つける

データ X の周辺分布をGaussian混合モデル（GMM）でモデル化する。 GMMはデータを「いくつかのクラスターの重ね合わせ」として捉え、各クラスターの中心と広がりを推定する：

\text{データの密度} \approx \sum_{j=1}^{M} \pi_j \phi(x;\, \mu_j, \sigma_j^2)

ここで得られた混合成分の平均 μ_j を中心 ξ_j、分散 σ_j² からスケール λ_j を設定する。

データ点から楕円クラスタが形成され、中心が特定されてRBF基底が配置される2段階プロセス — 左：データの密集地点にクラスタ（楕円）を当てはめ、中心（×）を特定する。右：その中心位置にGaussian基底を配置したRBFモデル

ステップ2：中心を固定して係数を線形回帰で求める

中心 ξ_j とスケール λ_j を固定した後、係数 β_j は単純な最小二乗問題になる：

\min_{\beta} \|y - H\beta\|^2, \quad H_{ij} = D\!\left(\frac{\|x_i - \xi_j\|}{\lambda_j}\right)

行列 H の各要素 H_ij は、「i番目のデータ点が j番目の中心からどれだけ近いか」を表す。この行列さえ作れば、あとは通常の線形回帰と同じだ。

なぜこれがうまくいくのか？
カーネル中心はデータが多い場所、つまり予測が重要な場所に自然に配置される。データが少ない場所には中心が置かれないため、「無駄な」基底関数が生まれない。データの構造そのものが、どこにRBFを配置すべきかを教えてくれる。

穴の問題と正規化の解決策

固定幅（すべての λ_j = λ）のRBFには厄介な問題がある。カーネル中心がまばらな領域では、どの基底関数も大きな値を持たず「穴」ができてしまう。

具体的に言うと：データが密集している領域ではカーネルが重なり合い滑らかな予測ができるが、データがまばらな領域では全てのカーネルが小さな値を返し、予測が不安定になる。高次元では特に深刻だ。

非正規化RBF（左）の穴問題と正規化RBF（右）の均一な値を対比するアニメーション — 左（非正規化）：2つの山の間に「穴」（赤い低い領域）ができる。右（正規化）：どの点でも合計が1になり、穴がない

解決策は正規化だ：

h_j(x) = \frac{D(\|x - \xi_j\|/\lambda)}{\sum_{k=1}^{M} D(\|x - \xi_k\|/\lambda)}

この正規化RBF基底は、どの点でも全基底関数の合計が1になることを保証する：

\sum_{j=1}^{M} h_j(x) = 1 \quad \text{（すべての } x \text{ に対して）}

これにより：

どんな場所でも最も近い基底関数が「ある程度の重み」を持つため、穴は生まれない
予測値が基底関数の「重み付き平均」として表現される（安定した予測）
この性質は、B-splineの「partition of unity（単位の分割）」と全く同じ性質だ

正規化のアイデアはシンプルだ：「どこにいても、何かが大きな値を持つようにする」。分母を全カーネルの合計にすることで、どの地点でも相対的な重みが意味を持つようになる。

Nadaraya-Watson推定との美しい関係

正規化RBF基底を使ったモデルを、特別な設定で見てみよう。各学習データ点 x_i に一つずつ基底関数を配置—— つまり「全データ点を中心として使う」場合だ。

すると予測式は：

f(x_0) = \sum_{i=1}^{N} y_i h_i(x_0) = \sum_{i=1}^{N} y_i \frac{K_\lambda(x_0, x_i)}{\sum_{k=1}^{N} K_\lambda(x_0, x_k)}

これは……どこかで見た形だ。第6章冒頭で学んだカーネル平滑化のNadaraya-Watson推定量そのものだ！

カーネル平滑化（上）とRBF展開（下）が同じ曲線に収束するアニメーション — 上（カーネル平滑化）と下（RBF展開）、異なる計算方法が全く同じ曲線（黄）に収束する

つまり：

カーネル平滑化——「目標点から見た重み付け平均」という視点
正規化RBF——「全データ点を基底関数として展開した線形モデル」という視点

この2つは実は同じ手法の異なる見方だった。同じものを異なる角度から見ている——数学の美しさがここにある。

この統一的な視点から、カーネル法（第12章のSVMを含む）と局所的学習手法の深い関係が見えてくる。 SVMのカーネルトリックも、本質的にはRBFと同じ「距離に基づく重み」のアイデアを共有している。

まとめ — 手法の統一的な景色

6.7節で学んだことを振り返ろう。 RBFは一見シンプルなアイデアだが、その背後には深い統一性がある。

各手法（距離ベース重み、カーネル平滑化、RBF、SVM）の関係性をノードグラフで示すアニメーション — 全ての手法は「距離に基づく重み」というコアアイデアを共有している。カーネル平滑化とRBFは双方向の矢印で示される通り、同一の手法だ

手法の系譜

手法	基底	最適化
カーネル平滑化	なし（局所重み付け）	なし（直接計算）
RBF回帰	カーネル関数	非凸（全パラメータ）→分離戦略
正規化RBF	正規化カーネル	線形（係数のみ）
Nadaraya-Watson	各データ点に一つ	なし（直接計算）

全てが「距離に基づく重み」というコアアイデアを共有している。

RBFが重要な理由

RBFが重要な理由は技術的な性能だけでなく、概念的な橋渡けにある：

第5章とのつながり——スプラインなどの基底展開と同じ枠組みで理解できる。薄板スプラインの最適解もRBF形式で書ける
第6章との統一——カーネル平滑化と同一視できる。異なる見方で同じ手法
第12章への橋渡け——SVMのカーネルトリックもRBFと本質的に類似している。「高次元特徴空間での内積」という見方は、距離ベースの重みと深く関係している

数学の美しさは、異なる角度から同じ真実が見えることにある。 RBFはその典型例だ——基底展開、カーネル平滑化、そしてサポートベクターマシン。異なる名前を持つこれらの手法が、実は「距離に基づく重み」という一つのアイデアを共有している。