kappaosyou’s blog

■

pandas

前処理

dropna, dropna(inplace=True)
dataframeは列ごとに型を持っている。方変更する場合にはastype()メソッドを使用する
sortにはsortValues()
mapは値ごとに関数適用。applyはDataFrameの行、列に対して。applyの戻りはSeries

統計量

mean, corr, covなどintやfloatについて計算する
describeは基本統計量を算出する

クロス集計

クロス集計とは、質問事項を２つ以上かけ合わせて集計する手法
groupby()にひとつや、リストで複数のカラムを指定する
numpy.hstack()でndarrayを横に結合。　(参考)
str_strip().uniquie()でユニークにする
concatでSeriesのリストを連結する

時系列データ

pct_change で変化率を算出
cumprodで累積率
rolling でデータの範囲指定で関数適用
resampleで頻度を変換

可視化

plot()で折れ線グラフ
scatter()で散布図
histでヒストグラムbinsは、ビンの数設定