dataframeにすることのメリットは何かといわれると、dataframeにしたとたんに様々な処理をメソッドで実行できるからである。
例えば値がNaNになっていると、処理を進めるうえでいろいろな問題がある。この時にdataframeにしておけば、除外、置換などが簡単にできる。
まずはNaNを持つサンプルdataframeを作成する。
import numpy as np import pandas as pd d = {'A':[1,2,np.nan], 'B':[5,np.nan, np.nan], 'C':[1,2,3]} df = pd.DataFrame(d) df
この結果としてNaNをもつdataframeが作成される。
A B C
0 1.0 5.0 1
1 2.0 NaN 2
2 NaN NaN 3
まずはNaNをもつ行を除外する。
df.dropna()
A B C
0 1.0 5.0 1
次にNaNを埋めて処理を進めやすくする。
df.fillna(value=0)
A B C
0 1.0 5.0 1
1 2.0 0.0 2
2 0.0 0.0 3