本日のまとめ（データ前処理：特徴量の選択）

過学習（バリアンスが高い)ときの対処としては、①データをさらに集める。②正則化を通じてペナルティを科す③単純なモデルを選択する④データの次元を減らすなどの対策がある。

L2正則化に関する解説が正直よくわからない。。。特に、「正則化パラメータλの値が大きくなるほど、ペナルティを受けるコスト関数の成長が早くなり、L2の円は狭くなる。たとえば、正則化パラメータの値を無限大にむかって増やした場合、重み係数は実質的に０になる」の部分がわからない。。
L1正則化が、「ほとんどの特徴量の重みを0として、疎な特徴ベクトルを作成する」理由もいまいち不明。。ここは要復讐。
ロジスティックの解説参考

特徴選択による次元削減は、モデルの複雑さを低減し、過学習を回避するひとつの方法。
次元削減法は、主に特徴選択(feature selection)と、特徴抽出(feature extraction)の２つのカテゴリに分かれる。特徴選択は、元の特徴の一部を選択。抽出は、新たな特徴空間を抽出することを指す
逐次特徴選択は、貪欲探索(greedy search)の一種。( k < d)において、d次元の特徴をk次元に削減するときに使用される。目的は、次元削減により計算効率を改善することと、ノイズを取り除き、モデルの汎化誤差を削減することである。
逐次後退選択(Sequential Backward Selection: SBS)は、典型的な逐次特徴選択アルゴリズムである。 貪欲探索法では、局所的最適選択が行われるのにチアして、しらみつぶし探索(exhaustive seacrch algorithms)では、考えられる組み合わせすべてが評価される。しらみつぶしは、計算量の観点から現実的ではない。
SBSでは、最小化したい評価関数を定義し、特徴量を削除する前後で、性能の差を評価する。