本日のまとめ

特徴抽出の方法

次元削減による特徴抽出の主な方法は以下の3つ - 教師なしデータ圧縮での主成分分析 - クラスの分離を最大化する教師あり次元削減法としての線形判別分析(LDA) - カーネル主成分分析(KPCA)による非線形次元削減

主成分分析による教師なし次元削減

  • データが新しい特徴空間に変換・射影される。
  • 主成分分析(Principal Component Analysis:PCA)は、特徴量同士の相関に基づいてデータからパターンを抽出する
  • 高次元データにおける、分散が最大となる方向を見つけ出し、元の次元と同じかそれよりも低い次元の新しい部分空間へ射影する。
  • PCAを次元削減に使用する場合、d×k次元(d行k列)の変換行列Wを作成する 以下のとき、k << dで、最初の主成分の分散は最大となる。

\textbf{x} = [ x_1, x_2, ・・・, x_d ],  \textbf{x} \in \mathbb{R}^{d} \\
\textbf{xW}, \textbf{W} \in \mathbb{R}^{d \times k} \\
\textbf{z} = [ z_1, z_2, ・・・, z_k \,  \textbf{z} \in \mathbb{R}^{k}

共分散行列の作成

  • 特徴量xjと、xkの間の共分散は以下の通り

\delta_{jk} = \frac {1}{n} \sum_{i=1}^{n} (x_j^{(i)} - \mu_j)(x_k^{(i)} - \mu_k) \\
\mu_j : 特徴量jの平均

  • 上記から、共分散行列は以下のように記述できる

  \sum = \left(
    \begin{array}{ccc}
      \delta_{1}^{2} & \delta_{12} & \delta_{13} \\
      \delta_{21} & \delta_{2}^{2} & \delta_{23} \\
      \delta_{31} & \delta_{32} & \delta_{3}^{2}
    \end{array}
  \right)

全分散と説明分散

  • 大きい固有値を抜き出す前に、固有値の分散説明率を考えてみる -分散説明率は以下の通り、固有の合計に対する固有値の割合となる

\frac{\lambda_j}{\sum_{j=1}^{d}{\lambda_j}}