科学・IＴ・登山の話題

kaggle Titanic Tutorial – 8

投稿日：2018年6月1日更新日：2018年6月7日

前回の結果がいまいちだった。これまではAgeは平均値でNullを埋めていた。平均値では明らか実際のデータと差異が出ると考えられる。そのためAgeがない情報についてより正確なAgeで補完するようにした。実際には下記のコードを利用して、性別・クラス別・タイトル別・ファミリーサイズで平均値を出して、その結果を利用して補完した。これで少しはScoreが上がると予想していたが残念ながら下がった。


d_train_g = d_train_g = d_train.groupby(['Sex','Pclass','title', 'FamilySize'])
d_train_g_m = d_train_g.median()
d_train_g_m = d_train_g_m.reset_index()[['Sex', 'Pclass', 'title', 'FamilySize', 'Age']]

原因として考えられるのは上記４項目がAgeと相関がない可能性がある。そこで相関を調べてみたところ以下のようになった。


d_train.corr()


plt.matshow(d_train.corr())

Related posts:

automated the boring - day9

単回帰でデータフレームの形式を整える

-Python
-Kaggle, Python

執筆者：admin

comment コメントをキャンセル

関連記事

: pyplotでx軸のラベルを90度回転させる

pyplotでx軸にラベルを記載するとラベル文字数が長すぎるためにお互いにオーバーラップしてみにくい。このよう場合にはpyplot.xticksを実行する際にrotationを指定すればよい。 Ro …

: K近傍法でデータを分析

K近傍法の手順データ読み込み EDA スケーリング K選択前処理モデル評価 K選択モデル構築 K近傍法でデータを分析する際にはseabornのpairplotが役に立つ df = …

: 生成した配列をグラフで確認

生成した配列を可視化するためにはmatplotlibが利用できる。ここでは簡単に可視化するための使い方を見てみる。まずはnumpyとmatplolibモジュールを読み込む。以下ではnumpyはnp …

: グリッドサーチ

機械学習のアルゴリズムを利用する際に一つの問題がパラメータの最適化。例えばSVMではガンマパラメータを適切に設定しないと結果は使い物にならないことがある。このパラメータは自分で設定する方法もあるが、P …

: errorbarで誤差棒付きグラフの作成

概要学習モデルのグラフは誤差を含んでいる。今2軸(xおよびy)をとり、以下のようなモデルに近似したとする。実際のデータは誤差がある。この誤差を表示できるのがerrorbarである。ドキュメント h …

PREV: kaggle Titanic Tutorial – 7
NEXT: kaggle Titanic Tutorial – 9

GIMPでForeground color pickerが正しくない色をピックアップするときの対応方法 2021年9月7日
lerpとslerpの違い 2021年8月5日
シェーダーとは 2021年8月3日
Unityの座標系についてメモ 2021年7月1日
ALLとREMOVEFILTERSの違い 2021年6月28日