Variable Importance
モデルにとって各入力変数がどれだけ予測に貢献しているかを定量化した指標。ランダムフォレストではGini重要度(不純度の削減量)とOOBランダム化重要度(変数をシャッフルしたときの精度低下量)の2種類が使われる。勾配ブースティングではM本の木全体で変数が損失を改善した量の平均として計算される。多クラス分類ではクラスごとに別々に集計した後、全クラスで平均する。
「どの入力変数が最も重要かを定量化する変数重要度」
「OOBランダム化による変数重要度の測定方法」
「勾配ブースティングにおける変数重要度 - M本の木で平均して安定化」
「Spamデータで57変数の重要度スペクトラムを確認——上位数個が判定を左右する」
「木の各ノードで測った改善量を変数ごとに集計する変数重要度の計算原理」
「多クラス分類でのクラス別重要度と全体平均重要度の関係」
「カリフォルニア住宅データで中央値所得が最重要変数として浮かび上がる」
「人口統計データで年齢の重要度は全クラス平均値であり職業別に解釈が異なる」