本日のまとめ(データ前処理:特徴量の選択)

特徴量の選択

  • 過学習(バリアンスが高い)ときの対処としては、①データをさらに集める。②正則化を通じてペナルティを科す③単純なモデルを選択する④データの次元を減らすなどの対策がある。

複雑さに対するペナルティとしてのL1/L2 正則化

  • L2正則化により、複雑さを提言可能である

L2: || w ||_2^2 = \sum_{j=1}^{m}w_{j}^2


L1: || w ||_1 = \sum_{j=1}^{m}|w_{j}|

  • L2正則化に関する解説が正直よくわからない。。。特に、「正則化パラメータλの値が大きくなるほど、ペナルティを受けるコスト関数の成長が早くなり、L2の円は狭くなる。たとえば、正則化パラメータの値を無限大にむかって増やした場合、重み係数は実質的に0になる」の部分がわからない。。
  • L1正則化が、「ほとんどの特徴量の重みを0として、疎な特徴ベクトルを作成する」理由もいまいち不明。。ここは要復讐。
  • ロジスティックの解説参考

逐次的特徴選択アルゴリズム

  • 特徴選択による次元削減は、モデルの複雑さを低減し、過学習を回避するひとつの方法。
  • 次元削減法は、主に特徴選択(feature selection)と、特徴抽出(feature extraction)の2つのカテゴリに分かれる。特徴選択は、元の特徴の一部を選択。抽出は、新たな特徴空間を抽出することを指す
  • 逐次特徴選択は、貪欲探索(greedy search)の一種。( k < d)において、d次元の特徴をk次元に削減するときに使用される。目的は、次元削減により計算効率を改善することと、ノイズを取り除き、モデルの汎化誤差を削減することである。

  • 逐次後退選択(Sequential Backward Selection: SBS)は、典型的な逐次特徴選択アルゴリズムである。 貪欲探索法では、局所的最適選択が行われるのにチアして、しらみつぶし探索(exhaustive seacrch algorithms)では、考えられる組み合わせすべてが評価される。しらみつぶしは、計算量の観点から現実的ではない。

  • SBSでは、最小化したい評価関数を定義し、特徴量を削除する前後で、性能の差を評価する。

ランダムフォレストで特徴量の重要度にアクセスする

  • データセットから重要な特徴量を抽出する手法として、ランダムフォレストを利用する方法がある
  • RandomForestClassifierを適合させた後、feature_importances_属性を使って値を取得可能