科学・IＴ・登山の話題

kaggle Titanic Tutorial – 6

投稿日：2018年5月27日更新日：2018年5月30日

さて、今回は年齢について検証する。まずこれまでは中央値を使っていたわけだ。これをもともと年齢分布と中央値を使って更新した後の年齢分布を比較する。


import numpy as nm
import pandas as pd
import seaborn as sns
%matplotlib inline

d_train = pd.read_csv('train.csv')
d_train['Age_1'] = d_train['Age']

fig, (axis1,axis2) = plt.subplots(1,2,figsize=(15,4))
axis1.set_title('Original Age')
axis2.set_title('Update Null with Mean')

d_train["Age_1"] = d_train["Age_1"].fillna(29.69911764705882)
d_train['Age'].hist(bins=70, ax=axis2)
d_train['Age_1'].hist(bins=70, ax=axis4)

この結果は以下のようになります。

わかりにくいのですが更新前は22歳で最大値が50であったのに対して、更新後は29歳で200になっています。この結果として分布図が極端に変化しています。

明らかに更新した年齢は実体にそぐわないものになっています。

そこでこちらを参考にして他のデータを参考にしてAgeを保管する。

https://ahmedbesbes.com/how-to-score-08134-in-titanic-kaggle-challenge.html


d_train = pd.read_csv('train.csv')
d_train['title'] = d_train['Name'].apply(get_title).map(Title_Dictionary)
d_train['FamilySize'] = d_train['SibSp'] + d_train['Parch'] + 1
d_train_g = d_train_g = d_train.groupby(['Sex','Pclass','title', 'FamilySize'])
d_train_g_m = d_train_g.median()
d_train_g_m.reset_index()[['Sex', 'Pclass', 'title', 'FamilySize', 'Age']]

性別、Class, title, FamilySizeにより年齢が全く異なるのがわかる。

次回はこの結果を利用してAgeを補完する。

Related posts:

初めてのmatplotlib

K近傍法でデータを分析

グラフの軸を操作する

-Python
-Kaggle, Python

執筆者：admin

comment コメントをキャンセル

関連記事

: 配列の属性を確認

numpyでは生成した配列の中身を確認するための属性が用意されている。主な属性は以下の通り次元数を確認:ndarray.ndim 各次元の大きさを確認:ndarray.shape 全部の要素数:n …

: StringIOを使ってread_csvのテストをしてみる

pandasで操作できるファイルは様々なあるが、csvはJSONと並んで取り扱うことが多いファイルである。ちょっとしたコードの検証をしたいときに毎回csvを用意して、read_csv()で読み込むのは …

: 配列をリストから生成

配列をリストから生成 numpyにおける配列はnp.arrayを使って生成する。最も基本となる方法はnp.arrayに引数としてリストを渡してやる方法である。まずは整数の配列を生成してみる。 pri …

: タプルの操作

タプルはPythonで提供されているデータ構造の一つ。タプルは固定長で変更できない複数の値の集合である。タプルオブジェクト (tuple object) — Python 3.8.0 ドキュメント …

: NumPyを使ってみる

Pythonでデータ分析の勉強を始めるとまず初めに出てくるパッケージ numpy。これはそもそも何か。 numpyのuser documentを読みながらいじってみる。 https://docs.sc …

PREV: kaggle Titanic Tutorial – 5
NEXT: kaggle Titanic Tutorial – 7

GIMPでForeground color pickerが正しくない色をピックアップするときの対応方法 2021年9月7日
lerpとslerpの違い 2021年8月5日
シェーダーとは 2021年8月3日
Unityの座標系についてメモ 2021年7月1日
ALLとREMOVEFILTERSの違い 2021年6月28日