科学の箱

科学・IT・登山の話題

Python

kaggle Titanic Tutorial – 8

投稿日:2018年6月1日 更新日:

前回の結果がいまいちだった。これまではAgeは平均値でNullを埋めていた。平均値では明らか実際のデータと差異が出ると考えられる。そのためAgeがない情報についてより正確なAgeで補完するようにした。実際には下記のコードを利用して、性別・クラス別・タイトル別・ファミリーサイズで平均値を出して、その結果を利用して補完した。これで少しはScoreが上がると予想していたが残念ながら下がった。


d_train_g = d_train_g = d_train.groupby(['Sex','Pclass','title', 'FamilySize'])
d_train_g_m = d_train_g.median()
d_train_g_m = d_train_g_m.reset_index()[['Sex', 'Pclass', 'title', 'FamilySize', 'Age']]

 

原因として考えられるのは上記4項目がAgeと相関がない可能性がある。そこで相関を調べてみたところ以下のようになった。


d_train.corr()


plt.matshow(d_train.corr())

 

 

メタ情報

inarticle



メタ情報

inarticle



-Python
-,

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

python virtualenvの使い方

pip3 install virtualenv virtualenv myenv myenv/Scripts/activate Related posts:pyperclipを設定するkaggle T …

no image

Pillowのインストールは成功しているのにエラーが出る

from . import _imaging as core ImportError: DLL load failed: The specified module could not be found …

no image

pandaのチュートリアル

pandaを利用すればdata frameに関連する操作はすべて実行できる。この辺のチュートリアルというか、何かまとめたドキュメントは何か調べてみた。 https://www.dataquest.io …

no image

dataframeで条件を付けて要素を返す方法

前回の続きから。 dfは現在以下のようになっている。 W X Y Z A 2.706850 0.628133 0.907969 0.503826 B 0.651118 -0.319318 -0.848 …

no image

配列をリストから生成

配列をリストから生成 numpyにおける配列はnp.arrayを使って生成する。最も基本となる方法はnp.arrayに引数としてリストを渡してやる方法である。 まずは整数の配列を生成してみる。 pri …

2018年6月
« 5月   9月 »
 123
45678910
11121314151617
18192021222324
252627282930  

side bar top



アーカイブ

カテゴリー