Chapter 1.1: 統計的学習への入り口

データから学ぶとはどういうことか——スパムメール、がん診断、手書き文字認識、遺伝子解析を通じて統計的学習の本質を探る。

なぜ「データから学ぶ」のか

毎朝、メールボックスにはスパムが届く。医師は検査データからがんのリスクを判断する。郵便局では機械が手書きの住所を読み取る。

これらは一見バラバラに見えるが、実は同じ問いに答えようとしている。

「データが与えられたとき、未知のものをどう予測するか?」

従来のプログラミングでは、ルールを人間が手で書く。「もし○○なら、△△する」という if 文の集合だ。しかし現実の問題は複雑すぎて、すべてのルールを人間が書き切れない。

そこで「データから学ぶ」という発想が生まれた。過去のデータ(訓練データ)を与えれば、コンピュータが自動的にパターンを発見し、新しいデータへの予測ができるようになる——これが統計的学習の本質だ。

データが学習機械に入り予測モデルが生成される過程

訓練データには「特徴量(features)」と「結果(outcome)」がセットで含まれる。たとえばスパム検出なら、「メール中の単語の頻度」が特徴量、「スパムかどうか」が結果だ。この対応関係を学習し、新しいメールに適用する。

左側の青い点が訓練データ、中央の黒いボックスが「学習機械」、そして右側の黄色い点が予測値だ。データが流れ込み、ボックスが光り、新しい入力に対して予測を返す——このシンプルなフローの中に、統計的学習の核心がある。

事例1 — スパムメール検出

1990年代後半、インターネットが普及するとともにスパムメールが爆発的に増加した。研究者たちは4601通のメールを収集し、それぞれが「スパム」か「正常メール(email)」かをラベル付けした。

各メールには57種類の特徴量がある——メール中の単語や記号の出現頻度だ。たとえば「%george」はgoogleという名前の人物への言及度合いで、スパムにはほとんど登場しないが正常メールにはよく出る。一方「%you」はスパムに多い。

このデータから学習アルゴリズムは次のようなルールを自動発見する:

もし(%george < 0.6)かつ(%you > 1.5)なら → スパム
2次元空間で点群が2つのグループに分離される様子

これは「分類問題(classification problem)」だ。出力(結果)が「スパムか否か」という離散的なカテゴリであることが特徴だ。

57次元の特徴量空間の中で「スパム」と「正常メール」を分ける境界線を見つけることが目標だ。アニメーションの黄色い線がこの境界線を表している——青い点群(正常メール)と赤い点群(スパム)を分離している。

分類の基本的な決定規則は「最もありそうなクラスを選ぶ」というシンプルな原則だ:

$$\hat{G}(x) = \arg\max_{k} \Pr(G = k \mid X = x)$$

直感的には「データが見えたとき、最もありそうなクラスを選ぶ」というシンプルな原則だ。

事例2 — 前立腺がん予測

前立腺がんの手術を控えた97人の患者データがある。目標は「PSA(前立腺特異抗原)の対数値(lpsa)」を予測することだ。

予測に使える特徴量は8種類: がん体積の対数(lcavol)、前立腺の重さの対数(lweight)、年齢(age)、良性前立腺肥大の対数(lbph)、精嚢浸潤(svi)、被膜浸潤の対数(lcp)、グリーソンスコア(gleason)、グリーソンスコア4/5の割合(pgg45)。

これはスパム検出と何が違うのか?出力(lpsa)が連続値だ。「スパムかどうか」ではなく「lpsa = 2.31」のような数値を予測する。これを回帰問題(regression problem)と呼ぶ。

回帰(連続値出力)と分類(離散値出力)を左右で対比

アニメーションの左側が回帰、右側が分類だ。左では点群に曲線がフィットしていき(連続値予測)、右では点群が色で分かれて境界線が引かれる(離散値予測)。

分類が「どのグループか」を問うのに対し、回帰は「どのくらいの値か」を問う。この違いは根本的で、使うアルゴリズムも評価方法も変わってくる。

散布図行列を見ると、lpsa(第1行)といくつかの特徴量の間に相関が見える。しかし目視で「どの組み合わせが最も予測力があるか」を判断するのは難しい。統計的学習はこの判断を自動化する。

事例3 — 手書き数字認識

米国郵便局の封筒に書かれた手書きの郵便番号を自動で読み取りたい。各数字は16×16ピクセルの白黒画像だ。つまり各画像は256個のピクセル値(特徴量)を持つ。

目標は「0から9のどの数字か」を当てること。これも分類問題だが、スパム検出と違ってクラスが10種類ある(多クラス分類)。

16x16ピクセルのグリッドが特徴量ベクトルに変換される様子

アニメーションでは、左の8×8グリッド(ピクセルを模倣)が右の特徴量ベクトルへ変換される過程が見える。明るいピクセル(白)が長いバー、暗いピクセルが短いバーに対応する。コンピュータにとって「数字の形」は、このような数値の配列に過ぎない。

256次元の特徴空間の中で、「3」の画像と「8」の画像がどう分布しているかを考えてほしい。人間には「3らしい形」と「8らしい形」という直感があるが、コンピュータには数値の配列しか与えられない。

統計的学習は、訓練データから「この数値パターンは3らしい」というルールを自動的に学習する。

このタスクの特徴:

  • 256次元の高次元空間
  • 10クラスの多クラス分類
  • 低エラー率が要求される(誤配達は大きな問題)

事例4 — DNAマイクロアレイ(正解のない問題)

これまでの例では「正解」が既知だった(スパムかどうか、lpsa値、数字の種類)。しかし現実のデータ分析では、「正解」が存在しないこともある。

DNAマイクロアレイのデータを考えよう。64人のがん患者から採取した腫瘍組織について、6830個の遺伝子の発現量を測定したデータがある。

問いは「このデータの中にどんな構造が隠れているか」だ。具体的には:

2D散布図の点群が自然にクラスターを形成する様子

正解ラベルはない。ただパターンを発見するだけだ。アニメーションでは、最初は白い点が無秩序に散らばっているが、やがて3つのグループに分かれていく。これが教師なし学習(unsupervised learning)だ。

ヒートマップ(実際の論文図では)、縦軸が遺伝子、横軸が患者を表す。色のパターンの中に「意味のある塊」が潜んでいる——それを見つけることが目標だ。

ここで不思議に思いませんか?「正解」がなければ、「正しくグループ分けできた」かどうかをどうやって評価するのか。この問いが、教師なし学習の深い課題を指し示している。

教師あり学習 vs 教師なし学習

ここで立ち止まって、2つの根本的に異なる学習の形を整理しよう。

教師あり(ラベルありデータ→モデル)と教師なし(ラベルなし→構造発見)の対比

アニメーションの上半分が教師あり学習、下半分が教師なし学習だ。

教師あり学習

  • 訓練データに「入力(features)」と「出力(outcome)」の両方がある
  • アルゴリズムは入力→出力の対応関係を学習する
  • 例: スパム検出、前立腺がん予測、手書き数字認識
  • 出力が連続値 → 回帰
  • 出力が離散値 → 分類

教師なし学習

  • 訓練データに入力のみがある(正解ラベルなし)
  • アルゴリズムはデータの構造・パターンを発見する
  • 例: DNAマイクロアレイのクラスタリング
  • 「何を発見するか」自体が問いになる

なぜ「教師あり/教師なし」と呼ぶのか。人間が子供を教育するとき、「これが犬、これが猫」と教師が正解を教える(教師あり)。一方、「自分で世界を観察して法則を見つけなさい」というのが教師なしだ。

本書のほとんどは教師あり学習を扱うが、教師なし学習は第14章で詳しく議論される。

この本で学ぶこと

本書「The Elements of Statistical Learning」は、統計的学習の手法を体系的に学ぶための教科書だ。

各章が積み上がっていく学習ロードマップ

ブロックが積み上がっていくように、本書の学習も段階的に構築されていく。

第2〜6章(青): 基礎的な手法

線形回帰、分類、スプライン、カーネル法。ここが土台だ。

第7〜8章(青): モデル評価と推論

バイアス・バリアンスのトレードオフ、ブートストラップ、ベイズ法。必読。

第9〜13章(黄): 構造化された学習手法

決定木、MARS、k-NN。より高度な手法へ。

第14〜18章(緑): アンサンブル・高次元

ランダムフォレスト、グラフィカルモデル、高次元問題の最前線。

本書のアプローチは一貫している: シンプルな手法を先に理解し、複雑な手法へ進む

数学的な厳密さより、直感的な理解を優先している(証明より概念を重視)。第1〜4章は順番に読むことを強く推奨する。第7章も「すべての学習手法に関わる中心概念」を扱うため必読だ。

最終的な目標: 与えられた問題に適切な手法を選び、なぜその手法が機能するかを理解すること。

さあ、一緒に見ていきましょう。次章では、教師あり学習の最も基本的な枠組みを数学的に整理する。