科学の箱

科学・IT・登山の話題

Python

タイタニックデータでEDA

投稿日:2018年4月13日 更新日:

タイタニックデータでEDAを実施する。

まずはライブラリの読み込み


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

 

初期化
sns.set_style('whitegrid')

データを読み込む


d_train = pd.read_csv('titanic_train.csv')

基本情報の取得


d_train.head()
d_train.describe() 

 

d_train.info()
'
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)

 

欠落データの取得


sns.heatmap(d_train.isnull())

 


sns.heatmap(d_train == 0) 

ユニーク値の件数


d_train.nunique()
'
PassengerId    891
Survived         2
Pclass           3
Name           891
Sex              2
Age             88
SibSp            7
Parch            7
Ticket         681
Fare           248
Cabin          147
Embarked         3

 

目的変数である生存フラグについて内訳を調べる


sns.countplot(x='Survived', data=d_train)

ユニーク値が少ないPClass, Sex, Embarkedで内訳をみてみる。

sns.countplot(x='Survived', hue='Sex', data=d_train)

 

sns.countplot(x='Survived', hue='PClass', data=d_train)


sns.countplot(x='Survived', hue='Embarked', data=d_train)

連続尺度についてグラフ表示

sns.distplot(d_train['Age'].dropna(),kde=False, bins=30)

sns.distplot(d_train['Fare'].dropna(),kde=False ) 

生存フラグについて連続尺度である従属変数により違いがあるか見てみる。


plt.figure(figsize=(12, 7))
sns.boxplot(x='Survied',y='Age',data=d_train)


plt.figure(figsize=(12, 7))
sns.boxplot(x='Survied',y='Fare',data=d_train)

データ間の関連を調べる


jointplot

 

 

メタ情報

inarticle



メタ情報

inarticle



-Python

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Pythonで文字列を生成するときの方法についてまとめる

Pythonで文字列を生成するときには様々な方法があるのでまとめる。 まず最も基本となるのは生成したい文字をシングルクォーテーションもしくはダブルクォーテーションで囲む方法である。どちらの方法を使って …

no image

kaggle Titanic Tutorial – 10

いろいろ試しているがうまくいかないので、とりあえずAgeを正しく補完できるか調べる。 調査は線形回帰でどれくらい相関が出るかで判断する。   import numpy as nm impor …

no image

pyplotでx軸のラベルを90度回転させる

pyplotでx軸にラベルを記載するとラベル文字数が長すぎるためにお互いにオーバーラップしてみにくい。 このよう場合にはpyplot.xticksを実行する際にrotationを指定すればよい。 Ro …

no image

kaggle Titanic Tutorial – 11

kaggleで人気があるlightGBMをつかってみる。   インストール pip install lightgbm 特に問題がなく終了。 コード、関係するところだけ記載。 split_be …

no image

RoboBrowserで提供しているメソッドget_linksにおけるパラメータの指定方法

get_linksは便利だが文字列を指定する際に少々手間取った。 結論から言うと文字列で指定する方法とre.compileオブジェクトを指定する方法の2つがある。 まず一つ目は単純な文字列。exact …

2018年4月
« 3月   5月 »
 1
2345678
9101112131415
16171819202122
23242526272829
30  

side bar top



アーカイブ

カテゴリー