科学の箱

科学・IT・登山の話題

Python

タイタニックデータでEDA

投稿日:2018年4月13日 更新日:

タイタニックデータでEDAを実施する。

まずはライブラリの読み込み


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

 

初期化
sns.set_style('whitegrid')

データを読み込む


d_train = pd.read_csv('titanic_train.csv')

基本情報の取得


d_train.head()
d_train.describe() 

 

d_train.info()
'
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)

 

欠落データの取得


sns.heatmap(d_train.isnull())

 


sns.heatmap(d_train == 0) 

ユニーク値の件数


d_train.nunique()
'
PassengerId    891
Survived         2
Pclass           3
Name           891
Sex              2
Age             88
SibSp            7
Parch            7
Ticket         681
Fare           248
Cabin          147
Embarked         3

 

目的変数である生存フラグについて内訳を調べる


sns.countplot(x='Survived', data=d_train)

ユニーク値が少ないPClass, Sex, Embarkedで内訳をみてみる。

sns.countplot(x='Survived', hue='Sex', data=d_train)

 

sns.countplot(x='Survived', hue='PClass', data=d_train)


sns.countplot(x='Survived', hue='Embarked', data=d_train)

連続尺度についてグラフ表示

sns.distplot(d_train['Age'].dropna(),kde=False, bins=30)

sns.distplot(d_train['Fare'].dropna(),kde=False ) 

生存フラグについて連続尺度である従属変数により違いがあるか見てみる。


plt.figure(figsize=(12, 7))
sns.boxplot(x='Survied',y='Age',data=d_train)


plt.figure(figsize=(12, 7))
sns.boxplot(x='Survied',y='Fare',data=d_train)

データ間の関連を調べる


jointplot

 

 

メタ情報

inarticle



メタ情報

inarticle



-Python

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Scrapy – Tutorial

Tutorialはこちら https://doc.scrapy.org/en/latest/intro/tutorial.html 特に難しい点はないがいくつかポイント spidersディレクトリはプ …

no image

automated the boring – day4

本日からOS操作。面倒くさいことを自動化するのであればOSコマンドは避けては通れない。 pythonではすでにosパッケージが用意されているので、これを利用すればコードとしてはそれほどはややこしくない …

no image

automated the boring

まずは肩慣らし print(‘Hello world!’) print(‘What is your name?’) # ask for their na …

no image

kaggle Titanic Tutorial – 9

さて今回は少し趣向を変えて別のアルゴリズムを試してみる。 アルゴリズムの試し方はこちらを参考にした。 https://www.kaggle.com/omarelgabry/a-journey-thro …

no image

Pythonで文字列を生成するときの方法についてまとめる

Pythonで文字列を生成するときには様々な方法があるのでまとめる。 まず最も基本となるのは生成したい文字をシングルクォーテーションもしくはダブルクォーテーションで囲む方法である。どちらの方法を使って …

2018年4月
« 3月   5月 »
 1
2345678
9101112131415
16171819202122
23242526272829
30  

side bar top



アーカイブ

カテゴリー