2.6 統計モデル、教師あり学習、関数近似

このセクションでは、教師あり学習を「関数近似」という統一的な視点で捉え直します。 データの背後にある真の関数 f(x) を推定することが、すべての予測問題の本質であることを理解します。

前のセクションでは、k近傍法や線形回帰を個別のテクニックとして学びました。 ここでは、これらを「同じ目標に向かう異なるアプローチ」として理解するための理論的枠組みを構築します。

なぜ「関数」を考えるのか?

あなたは今、目の前にデータの山を抱えています。入力 X と出力 Y のペアがたくさん。これを使って、まだ見ぬ新しい入力に対する出力を予測したい。

ここで立ち止まって考えてみましょう。「予測する」とは、一体何をすることなのでしょうか?

実は、予測とは関数を見つけることなのです。

入力 X を受け取り、出力 Y を返す「何か」—それが関数 f(X) です。データを観察し、この f を推定することが、教師あり学習の本質です。

しかし、現実世界は単純ではありません。同じ入力 X に対して、常に同じ出力 Y が得られるわけではないのです。天気予報を思い出してください。今日の気温や気圧(入力 X)が全く同じでも、明日の天気(出力 Y)は日によって異なります。

これはノイズ(誤差)の存在を意味します。真の関係は決定的ではなく、ランダムな要素を含んでいるのです。

データ点から真の関数を想像する

真のモデル

真のモデルは以下のように表されます:

$$Y = f(X) + \varepsilon$$

ここで:

誤差 ε について補足しましょう。「平均するとゼロになる」という性質を持ちます。プラスにもマイナスにもぶれますが、たくさん集めれば打ち消し合ってゼロに近づくのです。また、入力 X の値に関係なくランダムに発生します。

この式が意味することは深いです。私たちが観測する Y は、真の信号 f(X) とノイズ ε の和なのです。

統計モデルの意味

さて、「統計モデル」という言葉を聞いたことがあるでしょうか?難しそうに聞こえますが、考え方はシンプルです。

統計モデルとは、データがどのように生成されたかについての仮説です。

先ほどの式 $Y = f(X) + \varepsilon$ は、最もシンプルで広く使われる統計モデルの一つです。このモデルは以下を仮定しています:

  1. 加法的誤差: ノイズは出力に「足し算」される
  2. 誤差の独立性: ノイズは入力 X とは関係なく発生する
  3. 誤差の期待値ゼロ: ノイズは平均的にはゼロ(偏りがない)

なぜこのようなモデルを考えるのでしょうか?

現実世界では、入力と出力の間に完全に決定的な関係(Y = f(X) ぴったり)が成り立つことは稀です。測定誤差、観測されていない要因、本質的なランダム性など、様々な要因が結果に影響を与えます。

加法的誤差モデルは、これらすべての「予測不可能な変動」を一つの項 ε にまとめているのです。

同じ入力に対して出力がばらつく様子

条件付き分布

ここで「条件付き」という考え方を導入しましょう。「条件付き」とは、「ある条件のもとで」という意味です。

例えば、「入力 X が特定の値 x のとき、出力 Y はどんな値を取りやすいか?」—これが条件付き分布です。

$$\text{Pr}(Y|X) \text{ は } X \text{ に依存する}$$

この記号「Y|X」は「X が与えられたときの Y」と読みます。

加法的誤差モデルでは、「X = x のとき、Y の平均値は何か?」という問いに対して、きれいな答えが得られます:

$$E(Y|X = x) = f(x)$$

E は「期待値」(平均値)を表す記号です。つまり、「入力が x のとき、出力 Y を何度も観測すれば、その平均は f(x) になる」という意味です。

教師あり学習とは何か

統計モデルで「何を推定するか」がわかったところで、次は「どうやって推定するか」を見ていきましょう。

「教師あり学習」という言葉の由来を考えてみます。

学校を想像してください。先生(教師)が問題と正解のペアを見せてくれます。生徒は、これらの例から「問題を解くルール」を学びます。そして新しい問題が出されたとき、学んだルールを使って答えを導きます。

機械学習における「教師あり学習」も、まさにこれと同じです。

学習アルゴリズムは、訓練データを通じて「例から学ぶ」のです。

入力→ブラックボックス→出力の学習ループ

どのように学ぶのか

手法によってアプローチは異なりますが、共通しているのは「予測と実際のズレをできるだけ小さくする」という目標です。

どちらのアプローチも、最終的には「訓練データをうまく説明できる関数」を見つけようとしています。

関数近似という視点

さて、ここで重要な視点の転換があります。

これまで「学習」という言葉を使ってきましたが、数学者や統計学者は同じ問題を「関数近似」として捉えます。

なぜこの視点が重要なのでしょうか?

「学習」という言葉は人間の認知プロセスを連想させ、時にミステリアスな響きを持ちます。しかし「関数近似」という視点を取ると、問題は純粋に数学的なものになります:

「与えられたデータ点に基づいて、真の関数 f(x) を近似する関数 $\hat{f}(x)$ を構築せよ」

この視点から見ると、すべての教師あり学習手法は「関数近似の異なる戦略」として統一的に理解できます。

これらの手法については後のセクションで詳しく学びます。今は「様々なアプローチがある」ということを覚えておいてください。

同じデータに対する異なる近似手法の比較

どの手法を選ぶかは、「真の関数がどのような形をしているか」についての仮定に依存します。

パラメトリックモデル

関数近似を行う最も一般的な方法は、パラメトリックモデルを使うことです。

パラメトリックモデルとは、関数の「形」をあらかじめ決めておき、データを使って「形を決めるパラメータ」を調整するアプローチです。

線形モデル

最もシンプルな例は線形モデルです:

$$f(x) = x_1 \beta_1 + x_2 \beta_2 + \cdots + x_p \beta_p$$

これは「入力の各成分に重みをかけて足し合わせる」という意味です。例えば、家の価格を予測するなら:

価格 = (面積 × 重み₁) + (築年数 × 重み₂) + (駅からの距離 × 重み₃)

ここで各重み $\beta_1, \beta_2, \beta_3, ...$ がパラメータです。これらを総称して $\theta$(シータ)と書くこともあります。データを使って最適な重みを見つけることで、関数が決まります。

基底関数展開

より一般的には、基底関数展開と呼ばれる形式がよく使われます:

$$f_\theta(x) = \sum_{k=1}^{K} \theta_k h_k(x)$$

ここで:

基底関数の例:

基底関数を変えることで、驚くほど多様な関数を表現できるようになります。

基底関数の重み付き和として関数を構築

最小二乗法

パラメータ $\theta$ は、通常最小二乗法で推定します。

考え方はシンプルです。「予測値と実際の値のズレを、すべてのデータ点について合計したもの」を最小化します。このズレの合計を残差平方和(RSS: Residual Sum of Squares)と呼びます:

$$\text{RSS}(\theta) = \sum_{i=1}^{N} (y_i - f_\theta(x_i))^2$$

各項 $(y_i - f_\theta(x_i))^2$ は「実際の値と予測値の差の二乗」です。二乗するのは、プラスとマイナスを打ち消さないためです。

この RSS を最小化する $\theta$ を見つけることで、データに最もフィットする関数が得られます。

なぜ最小二乗法が「正しい」のか?—最尤推定という考え方

最小二乗法は直感的にわかりやすい手法ですが、なぜこれが「正しい」のでしょうか?より深い理論的基盤があるのでしょうか?

実は、最小二乗法は最尤推定という強力な統計原理の特殊ケースなのです。

最尤推定の考え方

最尤推定の考え方は次のとおりです:

「観測されたデータが生じる確率が最も高くなるようなパラメータを選べ」

言い換えると、「今手元にあるデータが起きやすい世界を想定せよ」ということです。

加法的誤差モデルで、誤差が正規分布に従う場合を考えてみましょう。正規分布とは「ベルカーブ」とも呼ばれ、平均値の周りに値が集まりやすい分布です。身長や体重など、自然界の多くの現象がこの分布に従います。

$$\varepsilon \sim N(0, \sigma^2)$$

この記号は「誤差 ε は平均 0、ばらつき $\sigma^2$ の正規分布に従う」という意味です。

すると、出力 Y の条件付き分布は:

$$Y|X \sim N(f_\theta(X), \sigma^2)$$

つまり、Y は平均 $f_\theta(X)$、分散 $\sigma^2$ の正規分布に従います。

データ点が正規分布の中心からどれだけ離れているかを示す

最小二乗法と最尤推定の関係

数学的な詳細は省略しますが、結論だけ述べると:

誤差が正規分布に従う場合、「データが起きやすさ」を最大化することと、「残差平方和」を最小化することは、まったく同じことになります。

つまり、最小二乗法は次のことを行っています:

$$\text{RSS を最小化} \Leftrightarrow \text{尤度(データの起きやすさ)を最大化}$$

これは重要な発見です。最小二乗法は、誤差が正規分布に従うという仮定のもとで、最も「もっともらしい」パラメータを見つけているのです。

直感的に言えば、「予測と実測のズレが小さいほど、そのモデルはデータをうまく説明している」ということになります。

まとめ—統一的な視点

このセクションで学んだことを整理しましょう。

教師あり学習は、以下の3つの視点から同じ問題を見ています:

1. 統計モデルの視点

データは $Y = f(X) + \varepsilon$ というモデルから生成される。目標は真の関数 f を推定すること。

2. 機械学習の視点

例(訓練データ)から学習し、新しい入力に対して予測を行う。学習アルゴリズムはフィードバックを通じて改善する。

3. 関数近似の視点

与えられたデータ点を説明する関数を構築する。パラメトリックモデルを使い、最小二乗法や最尤推定でパラメータを決定する。

これらは表現は異なりますが、本質的に同じことを述べています。

3つの視点が同じ目標に向かうことを示す

重要なのは、どの手法を選ぶかは「真の関数についてどのような仮定を置くか」に依存するということです。

仮定が正しければ、少ないデータでも良い予測ができます。仮定が間違っていれば、どんなにデータがあっても予測は外れます。

次のセクションでは、これらの仮定をどのように検証し、適切なモデルを選ぶかについて学びます。