スマートフォンの写真圧縮、MRI画像の鮮明な保存、地震波の解析——これらに共通する「魔法」がある。
音楽には「音の高さ」と「リズム」の両方がある。同じように、データには「どこで変化するか」と 「どのくらいの速さで変化するか」の両方の情報がある。 ウェーブレット平滑化は、この2つの次元を同時に捉える革命的な手法だ。 「なぜこれほど効果的なのか」を一緒に考えていこう。
スマートフォンで撮った写真がなぜあんなに小さく圧縮できるのか? 病院のMRI画像はどうやってくっきりと保存されるのか? この「圧縮の魔法」の裏にはウェーブレットという数学的な仕組みがある。
音声を分析する古典的な方法として、フーリエ変換がある。 「ある音にはどんな高さの音(周波数)が含まれているか」を分解する手法だ。 ピアノの「ド」を弾いたとき、フーリエ変換はそこに含まれる周波数成分(基音と倍音)を綺麗に分離できる。
しかし、フーリエ変換には致命的な弱点がある。「5秒後にドラムが鳴った」という情報を表現できないのだ。 フーリエ変換は「どの周波数が含まれるか」は分かるが、「いつ含まれるか」が分からない。 全体の中に「ある周波数があった」とは言えても、「その周波数が何秒目に出てきたか」は情報の外にある。

これは統計的なデータ分析でも同じ問題が起きる。 信号の中に孤立したスパイク(急激な変化)がある場合、フーリエ基底では多くの係数が必要になる。 スパイクを表現するために、全ての周波数成分を動員しなければならないからだ。
ここで問いかけたい。「時間と周波数の両方を同時に局所化できる基底関数」は存在するのだろうか?
実は存在する。それがウェーブレット(wavelet)だ。
フーリエ基底はこのような形をしている:
これらは全区間 $[0, 1]$ に広がる「グローバルな」基底だ。 ウェーブレット基底はこれと根本的に異なり、特定の位置と特定のスケール(解像度)の情報を持つ「ローカルな」基底だ。
ウェーブレットを理解するための最良のスタートは、Haarウェーブレットだ。 非常にシンプルな形をしているので、直感的に理解しやすい。
ウェーブレットは「父と母」の2種類の基本関数から作られる。 命名は親子関係の比喩 ── 父が大きな構造を提供し、母がその上に細かいパターンを生成する。
スケーリング関数(父関数) ── 大きなタイル(背景の構造):
ここで $\mathbb{I}(\text{条件})$ は「条件が成立するとき1、それ以外は0」を意味する指示関数だ。 この父関数はただの矩形 ── 区間 $[0, 1]$ だけで値を持ち、それ以外ではゼロだ。
母ウェーブレット ── 細かいパターン(詳細の構造):
これは「左半分が+1、右半分が-1」の矩形波だ。 左右で逆の値を持つため、「局所的な変化(ジャンプ)」に敏感に反応する。

重要なのは、この母ウェーブレットをスケール(拡大縮小)と位置(並進)で変化させることで、 あらゆるスケール・あらゆる位置の特徴を捉えられること:
スケーリング関数とその膨張:
これらは多重解像度解析(Multi-Resolution Analysis, MRA)を形成する:
$V_j$ は粗い(低解像度の)成分を表し、$j$ が大きいほど細かい(高解像度の)成分を含む空間を示す。
ウェーブレット変換の核心は多重解像度解析(Multi-Resolution Analysis)にある。
信号を「粗い成分」と「詳細成分」に分解し、さらに詳細成分を繰り返し分解する。 まるで地図を拡大縮小するように、異なる解像度で同じ対象を見る。

数学的には:
これを繰り返すと:
信号全体が「最も粗い成分 + 様々なスケールの詳細」に分解される。
このアーキテクチャの美しさは、各詳細成分 $W_j$ が特定のスケールの変化のみを捉えること。 広いスケールの変化は低い $j$ で、 細かいスケールの変化は高い $j$ で捉えられる。
これを「解像度の塔」と想像してみてほしい。一番下の階は全体の大まかな形。 上に行くほど細かいディテールが追加されていく。 各階は「その階だけの情報」を持ち、上下と情報は重複しない。
Haarウェーブレットは使いやすいが、滑らかな関数を表現するには効率が悪い。 そこで登場するのがSymmetletウェーブレットのような、より洗練されたウェーブレット族だ。
洗練されたウェーブレットの秘密は消滅モーメント(vanishing moments)にある。
まず直感から:滑らかな曲線(例:放物線のような多項式)に対してウェーブレットが「完全に無反応」になる性質、 それが消滅モーメントだ。まるで「滑らかな変化には気づかないが、急激なジャンプには即座に反応するセンサー」のような振る舞い。

数式で表すと:
この積分がゼロというのは「多項式 $x^j$ とウェーブレットが直交する(互いに無関係)」という意味。$p$ 個の消滅モーメントを持つウェーブレットは、次数 $p-1$ 以下の多項式に対して係数がゼロになる。
なぜこれが重要か?
滑らかな関数は局所的に多項式で近似できる。 消滅モーメントが多いウェーブレットほど「滑らかな部分を無視」し、本当に変化している部分だけに反応する。 Haarは1つの消滅モーメント(定数に無反応)、Symmetletのような高度なウェーブレットは多数の消滅モーメントを持ち、 高次の多項式的な変化も無視できる。
平滑スプラインの罰則が「滑らかさを強制する」のと同様に、消滅モーメントは「不要な係数を自動的に消す」仕組みだ。 これがウェーブレットによるスパース表現の源泉となる。
実際のデータ $y_1, y_2, \ldots, y_N$($N = 2^J$)に対して、 ウェーブレット変換を計算してみよう。$N$ が $2^J$(8, 16, 32, 64…のような2の冪乗)でなければならないのは、 ピラミッドアルゴリズムが「半分ずつデータをまとめる」構造を持つため。 ちょうど2で割り続けることができる数でないと、このアルゴリズムが機能しない。
ウェーブレット行列 $\mathbf{W}$($N \times N$ の正規直交行列)を使って:
$\mathbf{y}^*$ がウェーブレット係数だ。$\mathbf{W}$ が正規直交行列なので、これは最小二乗回帰の解と全く同じになる。

驚くべきことに、この変換は通常の行列乗算($O(N^2)$)で計算する必要がない。ピラミッドアルゴリズムと呼ばれる賢い計算法により:
FFT(高速フーリエ変換)でさえ $O(N \log N)$ かかるのに、 ウェーブレット変換は $O(N)$ で計算できる。 これは革命的な効率性だ。
ピラミッドアルゴリズムの仕組みは単純だ。隣り合う2点から「平均(粗い成分)」と「差(詳細成分)」を計算する。 これを繰り返すだけで、全スケールの係数が一度に計算できる。 各ステップの計算量は一定なので、総計算量は $N + N/2 + N/4 + \cdots = 2N$、 すなわち $O(N)$ となる。
ウェーブレット係数 $\mathbf{y}^*$ が手に入った。 次の問題は:どの係数が本当の信号で、どれがノイズか?
ここでソフト閾値処理(soft-thresholding)という優雅な解法が登場する。
最適化問題:
$L_1$ 罰則がかかっているので、これはLassoそのものだ。$\mathbf{W}$ が正規直交行列という特別な性質から、解析的な解が得られる:

これがソフト閾値処理。意味は単純だ:
ここで $(z)_+ = \max(z, 0)$(正の部分のみ取り出す)。
閾値 $\lambda$ はどう選ぶか?エレガントな答えがある:
ここで $\hat{\sigma}$ はノイズの標準偏差。なぜこの値か? もし信号が純粋なノイズ(平均0の独立ガウス変数)だとすると、$N$ 個の標準正規変数の最大値は約 $\sqrt{2\log N}$ になる。 つまりこの閾値以下の係数は「ほぼ確実にノイズ」だ。
$\hat{\sigma}$ は最も細かいスケールのウェーブレット係数から推定される。 なぜ細かいスケールか?信号の本質的な成分は粗いスケール(大きな構造)に集中するため、 最も細かいスケールはほぼノイズだけが残る。 だからこそ細かいスケールの係数からノイズの大きさを推定できる。
NMR(核磁気共鳴)信号の例で、全体の流れを見てみよう。 NMR信号は「なめらかな基礎成分」と「局所的なスパイク」が混在している。 これはウェーブレットが得意とする構造だ。

ウェーブレット平滑化の完全な手順:
変換前のウェーブレット係数と変換後を比較すると:
スプラインとの本質的な違いは罰則の種類にある:
$L_1$ 罰則はスパース性(疎性)を生む。 つまりウェーブレット平滑化は、関係のない係数を完全に除去することで圧縮を達成する。 これがウェーブレットが信号圧縮・画像圧縮で圧倒的な性能を発揮する理由だ。
ここで疑問が生まれる。スプラインとウェーブレット、どちらを使うべきなのか?
どちらも「なめらかな関数の推定」を目的とするが、根本的なアプローチが異なる。

| 平滑スプライン | ウェーブレット(SURE) | |
|---|---|---|
| 罰則 | $L_2$(Ridge的) | $L_1$(Lasso的) |
| 効果 | 全係数を均等縮小 | 小係数をゼロに(選択) |
| 特性 | 密な解 | スパース(疎)な解 |
| 得意な信号 | 滑らかな関数 | 孤立したバンプを持つ関数 |
ウェーブレットが輝く場面:
スプラインは「滑らかさ」を大前提とし、すべての係数をある程度残す。 ウェーブレットは「スパース性」を前提とし、本当に必要な係数だけを残す。
どちらが良いかはデータ構造次第だ。 でも重要なのは、目的に応じた表現と罰則を選ぶという思想 ── これが統計学習の本質だ。 Lasso と同じ $L_1$ 罰則の考え方が、時系列・信号処理の世界で革命を起こした例として、 ウェーブレット平滑化はここにある。
ウェーブレット平滑化は:
Lasso と同じ