タイタニックデータでEDA-2

投稿日：2018年4月18日更新日：2018年4月27日

前回は、タイタニックデータについてはビジュアライズしてデータについて理解を深めた。

今回はデータをいじって機械学習に使えるようにする。

機械学習をするために必要な処理は３つある。

null値の置換
余計な列の削除
余計な行の削除
カテゴラル値の変換

null値の変換

null値の取り扱いには2つの方法がある。

値の推測が可能であれば、特定のルールにより値を挿入してあげる
別の列を作り、該当列と、推測した値を組み合わせて利用する
nullの行をドロップしてしまう。

余計な列の削除


d_train.drop('Cabin',axis=1,inplace=True)

d_train.drop('Name', axis=1,inplace=True)

余計な行の削除


d_train.dropna(inplace=True)

カテゴラル値の変換


sex = pd.get_dummies(d_train['Sex'],drop_first=True)

embark = pd.get_dummies(d_train['Embarked'],drop_first=True)

d_train.drop(['Sex','Embarked'],axis=1,inplace=True)

d_train = pd.concat([d_train,sex,embark],axis=1)

numpyで配列を抜き出す方法

kaggle Titanic Tutorial – 10

flip, fliplr, flipudを使って配列要素を上下左右、左右、上下反転する

執筆者：admin

月	火	水	木	金	土	日
« 3月				5月 »
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

タイタニックデータでEDA-2

Related posts: