Normalization / Standardization
データの各特徴量を共通のスケールに揃える前処理。最も一般的な方法は標準化(平均0・分散1に変換)で x_scaled = (x - μ) / σ で計算される。ニューラルネットワークはスケールの違いに敏感で、正規化を怠ると学習が収束しない、局所最適に陥るなどの問題が起こる。バッチ正規化やレイヤー正規化は層内でこの操作を動的に行う現代的手法。
「すべての特徴量を「平均0、分散1」に揃える標準化が入力スケーリング問題を解決する」