科学の箱

科学・IT・登山の話題

Python

kaggle Titanic Tutorial – 8

投稿日:2018年6月1日 更新日:

前回の結果がいまいちだった。これまではAgeは平均値でNullを埋めていた。平均値では明らか実際のデータと差異が出ると考えられる。そのためAgeがない情報についてより正確なAgeで補完するようにした。実際には下記のコードを利用して、性別・クラス別・タイトル別・ファミリーサイズで平均値を出して、その結果を利用して補完した。これで少しはScoreが上がると予想していたが残念ながら下がった。


d_train_g = d_train_g = d_train.groupby(['Sex','Pclass','title', 'FamilySize'])
d_train_g_m = d_train_g.median()
d_train_g_m = d_train_g_m.reset_index()[['Sex', 'Pclass', 'title', 'FamilySize', 'Age']]

 

原因として考えられるのは上記4項目がAgeと相関がない可能性がある。そこで相関を調べてみたところ以下のようになった。


d_train.corr()


plt.matshow(d_train.corr())

 

 

メタ情報

inarticle



メタ情報

inarticle



-Python
-,

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

pythonで仮想環境を利用する

conda create –name fluffy numpy conda activate fluffy conda info –env actiavte fluffy de …

no image

numpy.random.standard_normal()を使って標準分布の配列を生成する

numpy.random numpyにはいろいろな種類の分布関数から配列をランダムに生成するモジュールが用意されている。このモジュールはnumpy.randomと呼ばれる。 マニュアルはこちら : R …

no image

graphvizによる決定木の表示

graphvizの実行ファイルをインストール https://graphviz.gitlab.io/_pages/Download/Download_windows.html pythonにgraph …

no image

GCP google translatorの利用

こちらが詳しい https://cloud.google.com/translate/docs/reference/libraries#client-libraries-usage-python &n …

no image

蟻本 P42 硬貨の問題

貪欲法の基本 その時点で最善の手を尽くす 尽くした結果を目的とする値に反映させる。 次善の手になるようにする。 1に戻る 硬貨の問題 A=int(input()) *C,=map(int,input( …

2018年6月
« 5月   9月 »
 123
45678910
11121314151617
18192021222324
252627282930  

side bar top



アーカイブ

カテゴリー