本日のまとめ（データ前処理）

カテゴリデータは、名義特徴量（赤、青など）かと順序（サイズのXL > L > Mなど）を区別する必要がある。
順序特徴量のマッピングは、明示的に定義してやる必要がある
DataFrameのmapメソッドに、辞書を指定することで区別可能
分類用の推定器は、クラスラベルを内部で整数に変換するが、ミスを回避するには内部的に変換させるのではなく、あらかじめクラスラベルを整数の配列として提供するのがよい。（どの値を割り当てるかは重要ではない）
ラベルを反転させるには、mapとkey, valueを反転させて再変換するか、LabelEncoderを使用するかの方法がある
名義特徴量を、順序づけてエンコードしてしまうと、順序があると勘違いしてしまう！！！
このような場合、one-hot エンコーディングという手法を使用する！！
green, redなどを名義特徴量の列の一意な値ごとにダミー特徴量を新たに作成する
これには、scikit-learn preprocessingの'OneHotEncoder`を用いる
OneHotEncoderのcategorical_featuresは廃止されているので、ColumnTransformerを使用する参考, 参考
pandasのget_dummiesは文字列のみを、ダミー特徴量に変換する
ダミー特徴量は、赤、青、緑を表すには２つで十分（計算量減らしたい）。このような場合、drop_first=Trueにする

特徴量のスケーリング(feature scaling)
決定木やランダムフォレストでは不要
勾配降下法などは、複数の特徴量の尺度が同じである場合がうまく動作する -- 単純な例では、スケーリングされていないと、、、誤差平方和もK近傍法も、誤差が大きなところに引っ張られる！！！
よく実施されるスケーリングは、正規化(normalization)と標準化(standardization)の２つ
正規化・・・[0,1]の範囲にスケーリング。min-maxスケーリングは以下のように計算できる。