前回は、タイタニックデータについてはビジュアライズしてデータについて理解を深めた。
今回はデータをいじって機械学習に使えるようにする。
機械学習をするために必要な処理は3つある。
- null値の置換
- 余計な列の削除
- 余計な行の削除
- カテゴラル値の変換
null値の変換
null値の取り扱いには2つの方法がある。
- 値の推測が可能であれば、特定のルールにより値を挿入してあげる
- 別の列を作り、該当列と、推測した値を組み合わせて利用する
- nullの行をドロップしてしまう。
余計な列の削除
d_train.drop('Cabin',axis=1,inplace=True)
d_train.drop('Name', axis=1,inplace=True)
余計な行の削除
d_train.dropna(inplace=True)
カテゴラル値の変換
sex = pd.get_dummies(d_train['Sex'],drop_first=True) embark = pd.get_dummies(d_train['Embarked'],drop_first=True) d_train.drop(['Sex','Embarked'],axis=1,inplace=True) d_train = pd.concat([d_train,sex,embark],axis=1)