本日のまとめ(アンサンブル学習)

アンサンブル学習

  • 様座な分類器を1つのメタ分類器として組み合わせる。
  • 最もよく使われるのは多数決(majority voting)
  • 2値分類問題で1つの誤分類率が0.25の分類器を11個組み合わせた場合、6個以上(過半数)が間違える確率は0.034となる(具体的な計算は割愛)
  • 単純な多数決ではなく、重み付きとなることもある

 y = arg max(i)  \sum_{j=1}^{m} w_j \chi_A (C_j (x) = i)
\\
y:アンサンブルで予測するラベル \\
w_j : 各分類器の重み \\
\chi_A :  特性関数

  • 上記をpythonで実装するには、argmaxとbincountを組み合わせる

バギング

  • アンサンブルを構成する個々の分類器に同じトレーニングデータではなく、最初のトレーニングデータセットから、ブートストラップ標本(ランダムな復元抽出)を利用する。
  • 上記から、バギングはブートストラップ集約とも呼ばれる。

アダブースト(Adaptive Boost:AdaBoost)

  • アンサンブルは非常に単純なベース分類器で構成される
  • 分類の難しい誤分類されたトレーニングサンプルをあとから弱学習器に学習させることでアンサンブルの性能を向上させる

アダブーストの仕組み

ブースティングの原型
  • レーニングデータセットDから、ランダムなサブセットd1を非復元抽出し、弱学習器C1をトレーニングする
  • 2つ目のランダムなトレーニングデータセットd2を非復元抽出し、以前に誤分類されたサンプルの50%を追加してC2をトレーニングする
  • レーニングデータセットからC1, C2の結果が異なるものから構成されるd3を洗い出す。そのd3を用いて学習器C3をトレーニングする
  • C1, C2, C3で多数決する
  • 上記の手順では、過学習になる傾向がある

アダブースト

  • 誤分類の重みを大きく、正しいものの重みを小さくを繰り返す

本日のまとめ(モデルの評価、チューニング)

パイプラインによるワークフローの効率化

  • make_pipelineは、入力としてsklearnの変換器(ex.StandardScaler, PCA)と、推定器(ex. LogisticRegression)を受け取る
  • 変換器はいくつ指定してもよい
  • 変換器は、fit & transform, 推定器はfit & predictをもつ
  • pipelienのfit()コール時は、変換器はfit & transformを実行し、最終的に推定器のfitが実行される
  • pipelineのpredict()コール時は、変換器はtransformを実行し、最終的に推定器のpredict()が実行される

k分割交差検証を使ったモデル性能評価

  • 学習不足(バイアス高)と、過学習(バリアンス高)のバランスをとるために、ホールドアウト法と、K分割交差検証という手法を利用する

ホールドアウト法の概要

k分割交差検証

  • モデルのチューニングに利用される
  • ホールドアウト法の強化版がk分割交差検証と思えばよい。
  • レーニングデータセットをランダムにk個に分割し、そのうちk-1個をトレーニング、1個を性能の評価に使用する
  • 個々のサブセットに基づいて、モデルの平均性能を計算する
  • 充分なハイパーパラメータが見つかったら、トレーニングデータセット全体でモデルを再トレーニングする→トレーニングサンプルは多ければ多いほうが良いため。
  • k分割交差検証は非復元再抽出法
  • 大体はk=10を使用する。サンプルが多い場合は、時間かかるので、k=5にしたりする。サンプルが少ない場合は、kを大きくしたりする。
  • 層化k分割交差検証(stratified k-fold cross-validation)では、各サブセットでクラスの比率を維持する

学習曲線と検証曲線によるアルゴリズムの診断

  • scikit-learnのlearning_curveを使用する。デフォルトで、層化k分割交差検証を使って交差検証の正解率を計算する -検証曲線は、サンプルサイズではなくパラメータの値を変化させたときのスコアをプロットする。
  • 検証曲線を描くにはvalidation_curveを使用する

グリッドサーチによる機械学習モデルのチューニング

  • GridSerachCVクラスにより、様々なハイパーパラメータから最適解を求められる

入れ子式交差検証によるアルゴリズムの選択

  • パラメータチューニングを、外と内で分けて実施。例えば、5*2など。

様々な性能評価指標

  • 適合率(precision), 再現率(recall), F1-score

混同行列

  • 混同行列は、真陽性(true positive)・偽陽性(false positive)・真陰性(true negative)・偽陰性(false negative)を報告する正方行列
  • scikit-learnではconfusion_matrix関数が用意されている

誤分類率・再現率、適合率、F1

  • 誤分類率,(ERR) 再現率(ACC)は以下のように表される

ERR = \frac{FP + FN}{FP + FN + TP + TN} \\
ACC = \frac{TP + TN}{FP + FN + TP + TN} = 1 -ERR

  • 真陽性率(TPR),偽陽性率(FPR)は、以下のようにあらわされる

FPR = \frac{FP}{FP + TN} \\
TPR = \frac{TP}{TF + FN}

  • 適合率(PRE) , 再現率(REC)は以下尿に表される

PRE = \frac{TP}{TP + FP} : 陽性と判断した中の、真陽性 \\
REC = TPR = \frac{TP}{TF + FN}:全陽性のうち、陽性と判断したもの

-GridSearchのscoringに上記の指標を用いることも可能 - 適合率(PRE)と再現率(REC)を組み合わせてたF1-scoreがよく使用される


F1 = 2 \frac{PRE \times REC}{PRE + REC} 

  • これらはsklearn.metrics モジュールからインポートできる

ROC曲線

  • Receiver Operation Characteristic 曲線
  • ROC曲線では、真陽性率(TPR) と、偽陽性率(FPR)が選択の基準となる。
  • 対角線がランダムな推定として解釈でき、対角線を下回るものはランダムよりも劣る。
  • 完璧なものは左上隅にプロットされる

不均衡なデータ

  • はじめからサンプルに90:10のようなかたよりがある場合、適当に答えても正解率は90になる。
  • 上記のような場合、正解率以外の指標がより重要になる
  • 多数派の患者として特定することが優先される場合は、再現率を重視
  • スパムメールは、間違ったものをラベル付けしないため、適合率重視
  • 学習時も、最適化のさいに、偏ったデータセットにひきずられる →少数派クラスに関する誤った予測に大きなペナルティを科す。これは、class_weight='balanced'を選択すればよい
  • 少数派クラスのアップサンプリング(サンプルの個数が同じになるまで、繰り返し抽出する)に役立つresampleという関数がある

本日のまとめ

線形判別分析による教師ありデータ圧縮

  • 線形判別分析(Linear Discriminant Analysis).PCAは分散が最も大きい直工成分軸を見つけるのに対し、LDAはクラスの分離を最適化する特徴部分空間を見つけ出す
  • LDAは教師ありのアルゴリズム。そのため、一般的にはこちらの方が優れている
  • LDAはデータが正規分布に従っていることを前提として、線形判別する
LDAの手順
  • d次元のデータセットを標準化する
  • クラスごとにd次元の平均ベクトルを計算する
  • 平均ベクトルを使ってクラスかん変動行列Sbと、クラス内変動行列Swを生成する
  • 行列Sw-1Sbの固有ベクトル固有値を計算する
  • 固有値をソートする
  • d*k次元の変換行列Wを生成するために、最も大きいk個の固有ベクトルを生成し、変換行列Wを生成する
  • 変換行列Wを使ってサンプルを新しい特徴空間へ射影する
平均行列の作成
  • クラスラベルi の平均行列は以下のようになる

m_i = \frac{1}{n_j} \sum_{x \in D_i}^{c} x

  • クラス内変動行列Swは、個々のクラスiについて変動行列Siは

S_w = \sum_{i=1}^{c} S_i
S_i = \sum_{x \in D_i}^{c}(x - m_i ) (x_m_i)^{T} \\ 
S_w : クラス内変動行列  \\
S_i :  個々のクラスの変動行列 \\

  • クラス内変動行列を計算するときは、(定義からしても)クラスラベルが一様に分布していることが前提となる。
  • していない場合は、スケーリングが必要

カーネル主成分分析を使った非線形写像

  • 非線形問題を解くには、より高次元の特徴空間へ射影し、そこで線形分離可能な状態にする

\phi : \mathbb{R^{d}}  → \mathbb{R^{k}} (k >> d)

  • φは、もとの特徴量を別の高次元へ射影する。例としては以下のようなもの

x = [x_1 ,x_2 ]^{T} \\
↓ \phi \\
z = [ x_1^{2}, \sqrt{2x_1x_2}, x_2^{2} ]^{T} 

  • この高次元空間に対して、標準のPCAを適用し、より低次元の空間へデータを再び射影し、サンプルを分離する
  • 上記は、非常に計算コストが高いので、カーネルトリックの出番となる。これにより、元の特徴空間において2つの高次元の特徴ベクトルの類似度を計算する

    一般的なPCAについて

  • 特徴量が標準化されているとき、共分散と、共分散行列は以下のように現れる

\delta_{jk} = \frac{1}{n}\sum_{i=1}^{n} x_j^{(i)}x_k^{(i)} \\
\delta_{jk}: 特徴量j, k間の共分散 \\
\sum = \frac{1}{n}\sum_{i=1}^{n} x^{(i)}x^{(i)T} \\
\sum:共分散行列

  • カーネル主成分分析の数式展開がかなり難しい。。。。ここはかなり難しいのでいったんとばす。。
  • RBFカーネルPCAの実装は、次の3つの手順にまとめることができる。
  • カーネル(類似度)行列Kを計算し、そこで次の計算をする

\chi (x^{(i)},x^{(j)}) = exp( - \gamma (\| x^{(i)} - x^{(j)} \|^{2} )
 \\

上記の計算をサンプル毎に行う(全ペア) - 以下の式を使って、Kの中心化を行う


K^{'} = K - 1_nK - K1_n + 1_nK1_N

  • ガンマは、実験が必要となるので、グリッドサーチ的に求める

本日のまとめ

特徴抽出の方法

次元削減による特徴抽出の主な方法は以下の3つ - 教師なしデータ圧縮での主成分分析 - クラスの分離を最大化する教師あり次元削減法としての線形判別分析(LDA) - カーネル主成分分析(KPCA)による非線形次元削減

主成分分析による教師なし次元削減

  • データが新しい特徴空間に変換・射影される。
  • 主成分分析(Principal Component Analysis:PCA)は、特徴量同士の相関に基づいてデータからパターンを抽出する
  • 高次元データにおける、分散が最大となる方向を見つけ出し、元の次元と同じかそれよりも低い次元の新しい部分空間へ射影する。
  • PCAを次元削減に使用する場合、d×k次元(d行k列)の変換行列Wを作成する 以下のとき、k << dで、最初の主成分の分散は最大となる。

\textbf{x} = [ x_1, x_2, ・・・, x_d ],  \textbf{x} \in \mathbb{R}^{d} \\
\textbf{xW}, \textbf{W} \in \mathbb{R}^{d \times k} \\
\textbf{z} = [ z_1, z_2, ・・・, z_k \,  \textbf{z} \in \mathbb{R}^{k}

共分散行列の作成

  • 特徴量xjと、xkの間の共分散は以下の通り

\delta_{jk} = \frac {1}{n} \sum_{i=1}^{n} (x_j^{(i)} - \mu_j)(x_k^{(i)} - \mu_k) \\
\mu_j : 特徴量jの平均

  • 上記から、共分散行列は以下のように記述できる

  \sum = \left(
    \begin{array}{ccc}
      \delta_{1}^{2} & \delta_{12} & \delta_{13} \\
      \delta_{21} & \delta_{2}^{2} & \delta_{23} \\
      \delta_{31} & \delta_{32} & \delta_{3}^{2}
    \end{array}
  \right)

全分散と説明分散

  • 大きい固有値を抜き出す前に、固有値の分散説明率を考えてみる -分散説明率は以下の通り、固有の合計に対する固有値の割合となる

\frac{\lambda_j}{\sum_{j=1}^{d}{\lambda_j}}

本日のまとめ(データ前処理:特徴量の選択)

特徴量の選択

  • 過学習(バリアンスが高い)ときの対処としては、①データをさらに集める。②正則化を通じてペナルティを科す③単純なモデルを選択する④データの次元を減らすなどの対策がある。

複雑さに対するペナルティとしてのL1/L2 正則化

  • L2正則化により、複雑さを提言可能である

L2: || w ||_2^2 = \sum_{j=1}^{m}w_{j}^2


L1: || w ||_1 = \sum_{j=1}^{m}|w_{j}|

  • L2正則化に関する解説が正直よくわからない。。。特に、「正則化パラメータλの値が大きくなるほど、ペナルティを受けるコスト関数の成長が早くなり、L2の円は狭くなる。たとえば、正則化パラメータの値を無限大にむかって増やした場合、重み係数は実質的に0になる」の部分がわからない。。
  • L1正則化が、「ほとんどの特徴量の重みを0として、疎な特徴ベクトルを作成する」理由もいまいち不明。。ここは要復讐。
  • ロジスティックの解説参考

逐次的特徴選択アルゴリズム

  • 特徴選択による次元削減は、モデルの複雑さを低減し、過学習を回避するひとつの方法。
  • 次元削減法は、主に特徴選択(feature selection)と、特徴抽出(feature extraction)の2つのカテゴリに分かれる。特徴選択は、元の特徴の一部を選択。抽出は、新たな特徴空間を抽出することを指す
  • 逐次特徴選択は、貪欲探索(greedy search)の一種。( k < d)において、d次元の特徴をk次元に削減するときに使用される。目的は、次元削減により計算効率を改善することと、ノイズを取り除き、モデルの汎化誤差を削減することである。

  • 逐次後退選択(Sequential Backward Selection: SBS)は、典型的な逐次特徴選択アルゴリズムである。 貪欲探索法では、局所的最適選択が行われるのにチアして、しらみつぶし探索(exhaustive seacrch algorithms)では、考えられる組み合わせすべてが評価される。しらみつぶしは、計算量の観点から現実的ではない。

  • SBSでは、最小化したい評価関数を定義し、特徴量を削除する前後で、性能の差を評価する。

ランダムフォレストで特徴量の重要度にアクセスする

  • データセットから重要な特徴量を抽出する手法として、ランダムフォレストを利用する方法がある
  • RandomForestClassifierを適合させた後、feature_importances_属性を使って値を取得可能

本日のまとめ(データ前処理)

欠測値のとりあつかい

欠測値の削除

  • scikit-learnはNumpy配列に対応しているが、前処理には、pandasのDataFrameの方が便利なことがある
  • dropnaメソッドで、欠測値を含む行を削除できる.削除の方法は色いろ。

欠測値の補完

  • 削除しすぎると、有益な情報が失われる場合がある。このような場合は、別の補完法を用いる
  • 代表的なものは、平均値補完である。scikit-learnのImputerクラスを使用すると便利 参考, scikit-learn
  • SimpulImputerは、変換器クラス(transformer)に属している
  • scikit-learnの変換器(transformer)クラスは、fittransformの2つのメソッドがある
  • fitは、トレーニングデータセットから、パラメータを学習するのに使用する
  • transformは、学習したパラメータに基づいて、データを変換するのに使用する
  • データ配列に含まれる特徴量の数は、モデルの適合に使用されたものと同じでなければならない。
  • 決定木などの分類器は、推定器(estimator)に属している

カテゴリデータの処理

  • カテゴリデータは、名義特徴量(赤、青など)かと順序(サイズのXL > L > Mなど)を区別する必要がある。
  • 順序特徴量のマッピングは、明示的に定義してやる必要がある
  • DataFrameのmapメソッドに、辞書を指定することで区別可能
  • 分類用の推定器は、クラスラベルを内部で整数に変換するが、ミスを回避するには内部的に変換させるのではなく、あらかじめクラスラベルを整数の配列として提供するのがよい。(どの値を割り当てるかは重要ではない)
  • ラベルを反転させるには、mapとkey, valueを反転させて再変換するか、LabelEncoderを使用するかの方法がある
  • 名義特徴量を、順序づけてエンコードしてしまうと、順序があると勘違いしてしまう!!!
  • このような場合、one-hot エンコーディングという手法を使用する!!
  • green, redなどを名義特徴量の列の一意な値ごとにダミー特徴量を新たに作成する
  • これには、scikit-learn preprocessingの'OneHotEncoder`を用いる
  • OneHotEncoderのcategorical_featuresは廃止されているので、ColumnTransformerを使用する 参考, 参考
  • pandasのget_dummiesは文字列のみを、ダミー特徴量に変換する
  • ダミー特徴量は、赤、青、緑を表すには2つで十分(計算量減らしたい)。このような場合、drop_first=Trueにする

レーニングデータとテストデータセットを分割する

  • 分割にはtrain_test_split関数を使用する

特徴量のスケーリング

  • 特徴量のスケーリング(feature scaling)
  • 決定木やランダムフォレストでは不要
  • 勾配降下法などは、複数の特徴量の尺度が同じである場合がうまく動作する -- 単純な例では、スケーリングされていないと、、、誤差平方和もK近傍法も、誤差が大きなところに引っ張られる!!!
  • よく実施されるスケーリングは、正規化(normalization)標準化(standardization)の2つ
  • 正規化・・・[0,1]の範囲にスケーリング。min-maxスケーリングは以下のように計算できる。

x_{norm}^{(i)} = \frac {x^{(i)} - x_{min}}{x_{max} - x_{min}} \\
x_{max}が1, x_{min}が0になる

  • 訓練データの正規化は、訓練データをモデルとして、テストデータの正規化も訓練データをモデルとするのがポイント
  • 標準化は、平均値を0, 標準偏差を1となるように変換する。特徴量の列が正規分布に従うため、重みを学習しやすくなる。標準化の式は以下の通り。

x_{std}^{(i)} = \frac {x^{(i)} - \mu}{\sigma_{x}} 

本日のまとめ

決定木学習

参考

決定木の学習方法

  • 情報利得が最大となる特徴量でデータを分割する
  • 情報利得の考え方には、情報エントロピーを考える方法(C4.5)と、ジニ不純度、分類誤差を考える方法がある
  • どちらの方法でも、分割前後の不純度の差分が大きければ大きいほど、情報利得が大きいと考えることができる. 情報利得は次のように定義される

 IG(D_p , f) = I (D_p) - \sum_{j=1}^{m} \frac{N_j}{N_p} I(D_j) \\

IG : 情報利得 \\
D_p : 親ノードデータセット(分割前)\\
D_j : 子ノードデータセット(分割後)\\
I: 不純度の数値化(ジニ不純度 or エントロピー) \\
N_p : 親ノードサンプルの総数 \\
N_j : j番目の子ノードのサンプル総数 

  • 二分決定木の場合は、以下のようになる

IG(D_p , f) = I(D_p) - \frac{N_{left}}{N_p} I(D_{left}) - \frac{N_{right}}{N_p} I(D_{right})


I_H(t) = - \sum_{i=1}^c p(i|t) log_2 p(i|t) \\

p(i|t) : 特定のノードtにおいて、クラスiに属するサンプルの割合

  • 上記の定義から、ノードのサンプルがすべて同じクラスの場合p(i|t) = 1で、は log1 = 0となるので、エントロピーは0となる。エントロピーが最大となるのは、サンプルが一様に分布している場合。
  • ジニ不純度の定義は以下の通り

I_G(t) = - \sum_{i=1}^c p(i|t) (1 - p(i|t)) = 1 - \sum_{i=1}^c p(i|t)^2 \\
p(i|t) : 特定のノードtにおいて、クラスiに属するサンプルの割合

  • 2値分類の場合、

I_G(t) = 1 - \sum_{i=1}^2 0.5^2  = 0.5

  • 分類誤差の定義は以下の通り

I_E(t) = 1 - max\{p(|t)\}

  • 分類誤差は、クラス確率の変化に敏感ではないため、決定木の成長には向いていない

ランダムフォレストについて

  • ランダムフォレストは、決定木の「アンサンブル」
  • 決定木は、根を深くすると、過学習(バリアンスが高い状態)を起こしがち
  • バリアンスが高い複数の(深い)決定木を平均化することで、より汎化性能が高い頑健なモデルを構築する
  • 手順は以下の通り

  • レーニングデータからnこのサンプルをランダムに選択する

  • 標本から決定木を成長させる。

    • 特徴量を重複なしで抽出する
    • 特徴量を使って、ノードを分割する
  • 上記をk回繰り返し、「多数決」に基づいてクラスラベルを割り当てる。

  • ハイパーパラメータの調整に悩む必要がないという利点がある。

  • サンプルのサイズを小さくすると、「ランダム性」が向上し、過学習を抑える効果が期待できる
  • 特徴量の数は、ルートをとることがおおい。

k近傍法 ( K-nearest neighbor classifier)

  • kの値と、距離指標を選択する
  • 分類したいサンプルから、k子の最近傍のデータ点を見つけ出す
  • 多数決によりクラスラベルを割り当てる
  • 距離指標は、データセットの特徴量に適した指標を選択することが需要!