科学の箱

科学・IT・登山の話題

Python

kaggle Titanic Tutorial – 8

投稿日:2018年6月1日 更新日:

前回の結果がいまいちだった。これまではAgeは平均値でNullを埋めていた。平均値では明らか実際のデータと差異が出ると考えられる。そのためAgeがない情報についてより正確なAgeで補完するようにした。実際には下記のコードを利用して、性別・クラス別・タイトル別・ファミリーサイズで平均値を出して、その結果を利用して補完した。これで少しはScoreが上がると予想していたが残念ながら下がった。


d_train_g = d_train_g = d_train.groupby(['Sex','Pclass','title', 'FamilySize'])
d_train_g_m = d_train_g.median()
d_train_g_m = d_train_g_m.reset_index()[['Sex', 'Pclass', 'title', 'FamilySize', 'Age']]

 

原因として考えられるのは上記4項目がAgeと相関がない可能性がある。そこで相関を調べてみたところ以下のようになった。


d_train.corr()


plt.matshow(d_train.corr())

 

 

メタ情報

inarticle



メタ情報

inarticle



-Python
-,

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Hello Worldを実行

環境設定を完了したらまずはお約束のHello Worldからである。 変数helloに文字列”Hello Python!”を代入する。Pythonにおいては型の指定は最初のうち …

no image

matplotlibのお役立ちリンク

matplotlibのリファレンスが必要ならこちらを参照する。 https://www.labri.fr/perso/nrougier/teaching/matplotlib/ Related pos …

no image

kaggle Titanic Tutorial – 5

ファミリーサイズを追加してみる。 ソースはこちらを参照した。 https://www.kaggle.com/lperez/titanic-a-deeper-look-on-family-size 主要 …

no image

numpy.linspace()を使って等差数列を生成する

一次関数と等差数列 一次関数をテストするときに必須になるのが等差数列。等差数列とは要素と要素の間の差が等しいもの。 例えば1, 2, 3, 4, 5, 6は等差が1の数列である。等差が2になると、1, …

no image

condaでjupyter notebookが使えないとき

condaで環境を作るとjupyter notebookはインストールされていない。 この場合には個別にjupyterをインストールすればよい。   conda install jupyte …

2018年6月
« 5月   9月 »
 123
45678910
11121314151617
18192021222324
252627282930  

side bar top



アーカイブ

カテゴリー