科学・IＴ・登山の話題

kaggle Titanic Tutorial – 8

投稿日：2018年6月1日更新日：2018年6月7日

前回の結果がいまいちだった。これまではAgeは平均値でNullを埋めていた。平均値では明らか実際のデータと差異が出ると考えられる。そのためAgeがない情報についてより正確なAgeで補完するようにした。実際には下記のコードを利用して、性別・クラス別・タイトル別・ファミリーサイズで平均値を出して、その結果を利用して補完した。これで少しはScoreが上がると予想していたが残念ながら下がった。


d_train_g = d_train_g = d_train.groupby(['Sex','Pclass','title', 'FamilySize'])
d_train_g_m = d_train_g.median()
d_train_g_m = d_train_g_m.reset_index()[['Sex', 'Pclass', 'title', 'FamilySize', 'Age']]

原因として考えられるのは上記４項目がAgeと相関がない可能性がある。そこで相関を調べてみたところ以下のようになった。


d_train.corr()


plt.matshow(d_train.corr())

Related posts:

selectorとxpathを手軽に取得する方法

pythonでjanomeを使う

-Python
-Kaggle, Python

執筆者：admin

comment コメントをキャンセル

関連記事

: pythonで仮想環境を利用する

conda create –name fluffy numpy conda activate fluffy conda info –env actiavte fluffy de …

: numpy.random.standard_normal()を使って標準分布の配列を生成する

numpy.random numpyにはいろいろな種類の分布関数から配列をランダムに生成するモジュールが用意されている。このモジュールはnumpy.randomと呼ばれる。マニュアルはこちら : R …

: graphvizによる決定木の表示

graphvizの実行ファイルをインストール https://graphviz.gitlab.io/_pages/Download/Download_windows.html pythonにgraph …

: GCP google translatorの利用

こちらが詳しい https://cloud.google.com/translate/docs/reference/libraries#client-libraries-usage-python &n …

: 蟻本 P42 硬貨の問題

貪欲法の基本その時点で最善の手を尽くす尽くした結果を目的とする値に反映させる。次善の手になるようにする。 1に戻る硬貨の問題 A=int(input()) *C,=map(int,input( …

PREV: kaggle Titanic Tutorial – 7
NEXT: kaggle Titanic Tutorial – 9

GIMPでForeground color pickerが正しくない色をピックアップするときの対応方法 2021年9月7日
lerpとslerpの違い 2021年8月5日
シェーダーとは 2021年8月3日
Unityの座標系についてメモ 2021年7月1日
ALLとREMOVEFILTERSの違い 2021年6月28日