3.1-3.2 線形回帰モデルと最小二乗法
データから未来を予測したい。でも、どうやって?
統計学習の最も基本的かつ重要な手法である線形回帰を学びます。「データから直線(または平面)を引く」という単純な発想が、どのような数学的構造を持ち、なぜこれほど強力なのかを探っていきます。
線形回帰は単純に見えて、実は深い幾何学的・統計学的意味を持っています。最小二乗法の解が「射影」という幾何学的操作と等価であること、そしてその解が最良の性質を持つことを、視覚的に理解していきましょう。
なぜ線形回帰なのか?
データから未来を予測したい。でも、どうやって?
入力 X から出力 Y を予測する関数 f(X) を見つけることが目標です。 しかし、f はどんな形でもありえます。複雑な曲線かもしれないし、とんでもなく入り組んだ形かもしれない。
ここで、最もシンプルな仮定をしてみましょう。
「f は直線(または平面)である」
これが線形回帰の出発点です。なぜこんな単純な仮定をするのか?
- 解釈しやすい: 各変数がどれだけ結果に影響するか、係数を見れば一目瞭然
- 計算が簡単: 解が明示的な公式で求まる
- 意外と強力: 多くの実問題で、線形モデルは驚くほどよく働く

シンプルさは弱点ではなく、武器なのです。
まずは1変数から - 単純線形回帰
まずは最もシンプルなケースから始めましょう。入力変数が1つだけの場合です。
身長から体重を予測する、勉強時間からテストの点数を予測する...どちらも「1つの入力から1つの出力を予測」する問題です。
このとき、予測式は高校で習った1次関数そのものです:
- $\beta_0$: 切片(y軸との交点)
- $\beta_1$: 傾き($x$ が1増えたとき $y$ がどれだけ増えるか)
たとえば、身長と体重の関係が $\hat{y} = -50 + 0.8x$ だったとしましょう(xはcm、yはkg)。 これは「身長が1cm増えると、体重は0.8kg増える傾向がある」ことを意味します。

最小二乗法 - 「最も近い」直線を見つける
さて、どの直線が「最も良い」のでしょうか?
N 個のデータ点 $(x_1, y_1), (x_2, y_2), \ldots, (x_N, y_N)$ があるとします。 各点について、予測値 $\hat{y}_i = \beta_0 + \beta_1 x_i$ と実際の値 $y_i$ の差を考えます。この差を残差(residual)と呼びます。
直感的には、「すべての残差ができるだけ小さい直線」が良い直線です。
では、「残差の合計が最小」を基準にすればいい?...残念ながら、これはうまくいきません。 正の残差と負の残差が打ち消し合って、見かけ上は小さくなってしまうからです。
そこで、残差を二乗してから足し合わせます。これが残差二乗和(RSS: Residual Sum of Squares)です:
この RSS を最小にする $\beta_0, \beta_1$ を求める方法が最小二乗法です。

最小二乗解の公式
RSS を最小にする係数は、高校で習う微分を使って求められます。
二次関数の最小値を求めるのと同じ要領です。RSS を $\beta_0$ と $\beta_1$ でそれぞれ微分して 0 とおくと、次の公式が得られます:
ここで $\bar{x}$, $\bar{y}$ はそれぞれ x, y の平均です。
この公式を言葉で説明しましょう。
分母は「x がどれだけばらついているか」を表します。平均からの距離を二乗して足し合わせたもの、つまり 分散 です(正確には分散に N をかけたもの)。
分子は「x と y がどれだけ一緒に動くか」を表します。x が平均より大きいとき y も平均より大きければ正、逆なら負。これを 共分散 と呼びます(正確には共分散に N をかけたもの)。
つまり傾きは「x と y の連動度」を「x のばらつき」で割ったものです。

複数の変数へ - 重回帰
入力変数が1つだけでは不十分なことがよくあります。 住宅価格を予測するなら、面積だけでなく、築年数、駅からの距離、部屋数...いろいろな要素を考慮したいはずです。
入力が p 個の変数 $X_1, X_2, \ldots, X_p$ であるとき、線形モデルは次の形になります:
この式の意味を紐解きましょう:
- $\beta_0$: 切片(すべての入力が0のときの予測値)
- $\beta_1, \beta_2, \ldots, \beta_p$: 係数(他の変数を固定したとき、各入力が1単位増えると予測値がどれだけ変化するか)
たとえば、住宅価格を予測するモデルで $\beta_{\text{面積}} = 50$ なら、「他の条件が同じで面積が1平方メートル増えると、価格は50万円上がる」という解釈ができます。
変数が2つなら、直線ではなく平面をフィットすることになります。3つ以上なら超平面(想像しにくいですが、平面の高次元版)です。

行列表記 - 一般化のための道具
変数が増えると、式を書くのが大変になります。そこで行列の出番です。
(ここは少し数学的になりますが、公式の意味さえ理解できれば先に進めます。詳細は後で戻ってきても大丈夫です。)
すべてのデータをまとめて書きましょう:
- $\mathbf{y}$: 観測値を縦に並べたベクトル(N 個)
- $\mathbf{X}$: 各行が1つのデータ点を表す行列(N 行 × (p+1) 列)
$\mathbf{X}$ の1列目は全て 1 です。これは切片 $\beta_0$ を他の係数と同じ形で扱うためのトリックです。
たとえば、3人の身長 (150, 160, 170) cm と面積 (20, 25, 30) m² から住宅価格を予測するなら:
1列目の「1」が $\beta_0$(切片)と掛け算され、2列目が $\beta_1$(身長の係数)と、3列目が $\beta_2$(面積の係数)と掛け算されます。
すると、N 個の予測値は $\mathbf{X}\boldsymbol{\beta}$ と書け、残差二乗和は:
これを最小にする $\boldsymbol{\beta}$ を微分で求めると、正規方程式と呼ばれる式が得られます:
$\mathbf{X}^T\mathbf{X}$ が逆行列を持つなら(通常は持ちます)、解は:
これが最小二乗推定量です。データさえあれば、この公式で最適な係数が一発で求まります。

幾何学的解釈 - 射影としての最小二乗
ここからが、線形回帰の最も美しい部分です。少し抽象的になりますが、この見方ができると理解が一段深まります。
N 個の観測値を N 次元空間の1つの点(ベクトル $\mathbf{y}$)と見なしてみましょう。
たとえば、3人分のデータ (y₁, y₂, y₃) は3次元空間の1点として表せます。100人分なら100次元です。 少し不思議に感じるかもしれませんが、こうすることで幾何学のツール(距離、角度、射影など)が使えるようになります。
一方、$\mathbf{X}\boldsymbol{\beta}$ は何でしょうか?$\boldsymbol{\beta}$ を変えると、$\mathbf{X}\boldsymbol{\beta}$ は $\mathbf{X}$ の列ベクトルの「ブレンド」(線形結合)として表されます。
2本のベクトルを様々な比率でブレンドすると、平面が作れます。3本なら3次元空間...というように、$\mathbf{X}$ の列が張る空間を 列空間 $\mathcal{C}(\mathbf{X})$ と呼びます。
最小二乗法は「$\mathbf{y}$ に最も近い $\mathbf{X}\boldsymbol{\beta}$ を見つける」ことでした。 幾何学的に言えば、これは $\mathbf{y}$ を列空間に射影する ことと同じです!
この射影を行う行列 $\mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T$ は ハット行列 と呼ばれます。
ちなみに、$\hat{\mathbf{y}}$(「ワイハット」と読みます)の「^」記号は統計学で「推定値」を表す慣習です。 「$\mathbf{y}$ に帽子(ハット)をかぶせて $\hat{\mathbf{y}}$ にする行列」だから「ハット行列」という覚え方ができますね。
残差 $\mathbf{y} - \hat{\mathbf{y}}$ は、列空間に直交します。これが「最も近い」ことの数学的意味です。

なぜ最小二乗法が「最良」なのか?
最小二乗法はなぜ「良い」のでしょうか?直感的には残差を小さくしているから良さそうですが、もっと深い理由があります。
ガウス・マルコフの定理という有名な結果があります。これを平たく言うと:
何度もデータを取り直したとき、最小二乗推定量は最も「安定した」答えを返す
もう少し正確に言うと、ある条件のもとで、最小二乗推定量は「線形で偏りのない推定量」の中で最も分散が小さいことが証明されています。これを英語の頭文字をとって「BLUE」(Best Linear Unbiased Estimator)と呼びます。
- 線形: 推定量がデータの線形結合で表せる
- 不偏: 平均すると真の値に一致する(系統的なずれがない)
- 最小分散: 推定値のばらつきが最も小さい
つまり、同じ条件を満たす他のどんな推定量よりも、最小二乗推定量は「安定している」のです。

推定の不確かさ - 信頼区間
推定量 $\hat{\boldsymbol{\beta}}$ は確率変数です。データが変われば、推定値も変わります。
では、$\hat{\boldsymbol{\beta}}$ はどれくらいばらつくのでしょうか?
誤差の分散を $\sigma^2$ とすると、$\hat{\boldsymbol{\beta}}$ の分散共分散行列は:
この式が教えてくれることは:
- $\sigma^2$ が大きい(ノイズが多い)ほど、推定は不安定
- データが多い、または X のばらつきが大きいほど、推定は安定
実際のデータでは $\sigma^2$ は未知なので、残差から推定します。これを使って、各係数の信頼区間を構成できます。
信頼区間の意味を正確に言うと:同じ条件でデータを100回取り直し、毎回この方法で区間を作ると、そのうち約95回は真の値を含む——これが「95%信頼区間」です。 区間が狭いほど、推定が精密であることを意味します。

まとめ - 線形回帰の全体像
ここまでの内容を振り返りましょう。
線形モデルは、入力の線形結合で出力を予測します:
最小二乗法は、残差二乗和を最小にする係数を求めます:
幾何学的には、これは $\mathbf{y}$ を列空間に射影することと同じです。
統計学的には、ガウス・マルコフの定理により、最小二乗推定量は線形不偏推定量の中で最良です。
線形回帰は単純ですが、この単純さの中に深い構造が隠れています。 次の章では、この基本形式をさまざまな方向に拡張していきます。
変数選択、正則化、非線形への拡張...線形回帰を土台として、より柔軟で強力なモデルへと進んでいきましょう。
