2020-07-01から1ヶ月間の記事一覧

本日のまとめ(データ前処理:特徴量の選択)

特徴量の選択 過学習(バリアンスが高い)ときの対処としては、①データをさらに集める。②正則化を通じてペナルティを科す③単純なモデルを選択する④データの次元を減らすなどの対策がある。 複雑さに対するペナルティとしてのL1/L2 正則化 L2正則化により、複…

本日のまとめ(データ前処理)

欠測値のとりあつかい 欠測値の削除 scikit-learnはNumpy配列に対応しているが、前処理には、pandasのDataFrameの方が便利なことがある dropnaメソッドで、欠測値を含む行を削除できる.削除の方法は色いろ。 欠測値の補完 削除しすぎると、有益な情報が失わ…

本日のまとめ

決定木学習 参考 決定木の学習方法 情報利得が最大となる特徴量でデータを分割する 情報利得の考え方には、情報エントロピーを考える方法(C4.5)と、ジニ不純度、分類誤差を考える方法がある どちらの方法でも、分割前後の不純度の差分が大きければ大きいほ…

本日のまとめ

正則化による過学習への対処 過学習とは、トレーニングデータに適合しているが、テストデータではうまく適応できない問題のこと データに対して、パラメータの数が多すぎて、モデルが複雑なときに起こりうる。(高バリアンス) バリアンスが高いと、データセ…

本日のまとめ

分類アルゴリズムの選択 分類器の性能は学習に利用可能なデータに依存する 一般的なアルゴリズム選択の手順は以下の通り 特徴量を選択し、サンプルを収集する 性能指標を選択する 分類器と最適化アルゴリズムを選択する モデルの性能を評価する アルゴリズム…

勾配降下法と確率的勾配降下法

このまとめが図が豊富で分かりやすい。 ここでは言葉で簡単にまとめる。 勾配降下法 全サンプルにわたって蓄積された誤差を用いて、重みを更新する 誤差曲面を、まっすぐに進むことが多い サンプル数が数百万点など多くなると、計算コストが大きくなりがち …

プロセスのメモリ使用量

プロセスのメモリ使用量の測定ではpsコマンドはあてにならない。 メモリ使用量を測定したい場合は、PSSや、USSを測定するようにする。 参考:https://qiita.com/guntamania/items/f2fb326e6b8b5b01d8a3 プロセスのメモリは、プログラムの実行メモリなどが配置…

Matplotlibでのグラフ描画

特徴 動作するOSを問わない MATLABライクなUI 軸、目盛り線、詳細な書式に対応 出力形式もいろいろ グラフ描画の基礎 Jupyter Notebookにグラフを出力するには、plt.show()を利用する グラフを描画する前に、Figureと、Subplotを生成する FigureはSubplotを…

pandas 前処理 dropna, dropna(inplace=True) dataframeは列ごとに型を持っている。方変更する場合にはastype()メソッドを使用する sortにはsortValues() mapは値ごとに関数適用。applyはDataFrameの行、列に対して。applyの戻りはSeries 統計量 mean, corr,…

2020/07/04 日記

07/03 Bと飲みにいった。会社の現状を聞いて、自分の考えや感じていたことはあながち間違いではないと感じた。 自分で考えて、自分で食べられる力をつけなくてはならない。 07/04 午前 朝5時に目が覚めたが、お風呂に入ったあともう一度寝てしまった。 11時…

C++の参照型について

こちらを参考にしました。 参照型とは 変数に別名をつけて参照することが可能となるC++の機能 int x = 20; int& y = x; // yをint型への参照として定義。参照先:x y = 30; // xも30となる。 参照型を宣言するためには、宣言の前に&をつける。 アドレス演算子…

セマンティクスとシンタックス

こちらの記事を参考にいたしました。 セマンティクスとシンタックス セマンティクスとは、意味論を表し、シンタックスは構文を表す。 つまり シンタックス: 目的の動作を達成するプログラムを、どのように記載するかというルール セマンティクス: ソースコー…

右辺値と右辺値参照

こちらの記事を参考にいたしました。 右辺値と左辺値の違い C++では、右辺値と左辺値が明確に区別される。 int i = 1; 例えば、上記ではiが左辺値, 1が右辺値となる。 左辺値は、名前付きオブジェクトであり、右辺値はすぐに破棄されるもの。 右辺値として、…