「面積が10平米増えれば、家の価格が必ず100万円上がる」——本当にそうだろうか? 現実のデータは、そんなに単純ではない。
Chapter 9.1では、線形モデルの制約を超えながらも「解釈性」を保つ一般化加法モデル(GAM)を探ります。 各変数の効果を「形を限定しない曲線」として自動的に学ぶこの手法は、 予測精度と解釈性を両立させる強力な武器です。
あなたが不動産エージェントだとしよう。「この家の価格を予測してほしい」と言われた。 面積・築年数・立地スコアをデータとして持っている。
直線的に考えれば、「面積が10平米増えるごとに、価格が100万円上がる」というモデルが作れる。 でも実際には、小さな家は面積の増加で価格が急激に上がり、大きな家ではそれほど上がらない。 築年数も、新築から10年は価格が急落し、その後は比較的安定する——線形ではなく、曲線的な関係がある。

従来の解決策は、多項式や区分的な曲線(スプライン)で非線形性を表現することだった。 しかし「何次の曲線を使うか?どの変数を非線形にするか?」を事前に人間が決める必要があった。
一般化加法モデル(GAM)は別のアプローチをとる。 各変数への効果を「形を決めずに」、データから自動的に学ぶのだ。
線形モデルと加法モデルの式を並べてみよう:
線形モデルとの違いは一目瞭然だ。$\beta_j X_j$(傾き×変数)の代わりに、$f_j(X_j)$という形を限定しない関数を使う。$f_j$は「なめらかであること」以外の制約がない自由な曲線だ。
加法モデルの「加法」という言葉に注目しよう。
複数の変数が予測に寄与するとき、それぞれの効果が独立して足し合わされると仮定している。$X_1$の効果は$f_1(X_1)$、$X_2$の効果は$f_2(X_2)$——それぞれが独立した曲線として推定される。

これが「解釈性」を保つ秘訣だ。線形モデルの係数$\beta_j$と同じように、 各変数の偏効果(他の変数を固定したときの効果)を個別に可視化できる。$\hat{f}_j(x)$のグラフを見るだけで「$X_j$がどう影響するか」が直感的にわかる。
他の変数をすべて平均で固定したとき、$X_j$の値が変わるにつれて$Y$がどう変化するかを示すグラフが$\hat{f}_j$だ。
交互作用(変数間の組み合わせ効果)は仮定しない——というのが加法性の代償だ。 しかし多くの実際の問題では、この制約は合理的な近似になる。
では、$f_1, f_2, \ldots, f_p$という複数の非線形関数をどうやって同時に推定するのか?
鍵となるアイデアはシンプルだ:「1つずつ順番に当てはめる」。
バックフィッティングアルゴリズム(Algorithm 9.1)の手順:

「部分残差」を具体的に考えてみよう。 3つの変数$X_1, X_2, X_3$があるとして、今$f_2$を推定したいとき:
バックフィッティングの核心:
上の式:スムーザー$\mathcal{S}_j$を「他の変数を除いた残差」に適用して$\hat{f}_j$を更新。 下の式:$\hat{f}_j$が平均ゼロになるよう調整(識別可能性のため)。
この手順を$f_1 \to f_2 \to f_3 \to f_1 \to \cdots$と順番に繰り返すことで、 全ての関数が次第に安定した値に収束していく。
加法モデルをさらに広げると、一般化加法モデル(GAM)になる。
連続値の予測(回帰)だけでなく、0か1かの分類(スパムか否か)、 カウントデータ(事故件数)にも対応できる。 鍵は「リンク関数」$g$だ:
$\mu(X) = E(Y|X)$は条件付き平均、$g$はそれを「線形スケール」に変換するリンク関数だ。

3種類の代表的なリンク関数:
| リンク関数 | 形式 | 使いどころ |
|---|---|---|
| 恒等リンク | $g(\mu) = \mu$ | 連続応答変数(Gaussian) |
| ロジットリンク | $g(\mu) = \log\frac{\mu}{1-\mu}$ | 2値分類(0か1か) |
| 対数リンク | $g(\mu) = \log(\mu)$ | カウントデータ(Poisson) |
分類問題(加法ロジスティック回帰)の式は次のようになる:
$\log\frac{p}{1-p}$はlog-odds(対数オッズ)——「成功確率と失敗確率の比の対数」だ。 これが線形の代わりに加法関数で表されている。
分類問題では、通常のバックフィッティングをそのまま使うことはできない(応答が0か1の離散値だから)。 代わりに「現在の予測確率から仮想的な連続値を作り、その連続値に加法モデルを当てはめる」 というループを繰り返す。
4601通のメールがある。スパム(迷惑メール)かそうでないかを自動判定したい。
57個の特徴量(「free」「remove」「george」などの単語出現率、大文字の使用率など)を使って、 加法ロジスティック回帰モデルを当てはめた。 (各変数の曲線の複雑さを「4段階の自由度」で制限して、過学習を防いでいる。)
結果は?
非線形な効果を取り込んだことで、大幅に精度が向上した。

特に興味深いのは、各変数への偏効果グラフだ。
例えば「george」という単語の頻度と応答の関係:
これは典型的な「ゼロでの不連続性」——単純な線形モデルでは捉えられなかった非線形効果だ。
各変数の効果が「線形かどうか」のテスト(非線形P値)も提供できる:
この「線形コンポーネント」と「非線形コンポーネント」への分解により、 GAMはロジスティック回帰の延長線上にありながら、はるかに豊かな情報を提供する。
一般化加法モデルは、「解釈性」と「柔軟性」のトレードオフを巧みに解決するモデルだ。

GAMが優れている点:
GAMの限界:
次の章(9.2以降)では、決定木、MARS、混合専門家モデルなど、 異なる戦略で非線形性と交互作用を扱う手法を探ることになる。 ブースティング(10章)は大規模問題でGAMを超える実用的な代替手段を提供する。
GAMは、「なぜそうなるのか」を知りたい場面——医療、社会科学、リスク管理——で今も広く使われている。 予測精度だけでなく理解が求められるとき、加法モデルは強力な武器になる。