前回の結果がいまいちだった。これまではAgeは平均値でNullを埋めていた。平均値では明らか実際のデータと差異が出ると考えられる。そのためAgeがない情報についてより正確なAgeで補完するようにした。実際には下記のコードを利用して、性別・クラス別・タイトル別・ファミリーサイズで平均値を出して、その結果を利用して補完した。これで少しはScoreが上がると予想していたが残念ながら下がった。
d_train_g = d_train_g = d_train.groupby(['Sex','Pclass','title', 'FamilySize']) d_train_g_m = d_train_g.median() d_train_g_m = d_train_g_m.reset_index()[['Sex', 'Pclass', 'title', 'FamilySize', 'Age']]
原因として考えられるのは上記4項目がAgeと相関がない可能性がある。そこで相関を調べてみたところ以下のようになった。
d_train.corr()
plt.matshow(d_train.corr())

