kappaosyou’s blog

本日のまとめ

決定木学習

決定木の学習方法

情報利得が最大となる特徴量でデータを分割する
情報利得の考え方には、情報エントロピーを考える方法（C4.5)と、ジニ不純度、分類誤差を考える方法がある
どちらの方法でも、分割前後の不純度の差分が大きければ大きいほど、情報利得が大きいと考えることができる. 情報利得は次のように定義される

二分決定木の場合は、以下のようになる

不純度には、ジニ不純度(Gini impurity)　Ig、エントロピー(entropy) Ih、分類誤差（classification error) Ieがある。
エントロピーの定義は以下の通り

上記の定義から、ノードのサンプルがすべて同じクラスの場合p(i|t) = 1で、は log1 = 0となるので、エントロピーは0となる。エントロピーが最大となるのは、サンプルが一様に分布している場合。
ジニ不純度の定義は以下の通り

2値分類の場合、

分類誤差の定義は以下の通り

分類誤差は、クラス確率の変化に敏感ではないため、決定木の成長には向いていない

ランダムフォレストについて

ランダムフォレストは、決定木の「アンサンブル」
決定木は、根を深くすると、過学習（バリアンスが高い状態）を起こしがち
バリアンスが高い複数の（深い）決定木を平均化することで、より汎化性能が高い頑健なモデルを構築する
手順は以下の通り
トレーニングデータからnこのサンプルをランダムに選択する
標本から決定木を成長させる。
- 特徴量を重複なしで抽出する
- 特徴量を使って、ノードを分割する
上記をk回繰り返し、「多数決」に基づいてクラスラベルを割り当てる。
ハイパーパラメータの調整に悩む必要がないという利点がある。
サンプルのサイズを小さくすると、「ランダム性」が向上し、過学習を抑える効果が期待できる
特徴量の数は、ルートをとることがおおい。

k近傍法 ( K-nearest neighbor classifier)

kの値と、距離指標を選択する
分類したいサンプルから、k子の最近傍のデータ点を見つけ出す
多数決によりクラスラベルを割り当てる
距離指標は、データセットの特徴量に適した指標を選択することが需要！