科学の箱

科学・IT・登山の話題

Python

タイタニックデータでEDA

投稿日:2018年4月13日 更新日:

タイタニックデータでEDAを実施する。

まずはライブラリの読み込み


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

 

初期化
sns.set_style('whitegrid')

データを読み込む


d_train = pd.read_csv('titanic_train.csv')

基本情報の取得


d_train.head()
d_train.describe() 

 

d_train.info()
'
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)

 

欠落データの取得


sns.heatmap(d_train.isnull())

 


sns.heatmap(d_train == 0) 

ユニーク値の件数


d_train.nunique()
'
PassengerId    891
Survived         2
Pclass           3
Name           891
Sex              2
Age             88
SibSp            7
Parch            7
Ticket         681
Fare           248
Cabin          147
Embarked         3

 

目的変数である生存フラグについて内訳を調べる


sns.countplot(x='Survived', data=d_train)

ユニーク値が少ないPClass, Sex, Embarkedで内訳をみてみる。

sns.countplot(x='Survived', hue='Sex', data=d_train)

 

sns.countplot(x='Survived', hue='PClass', data=d_train)


sns.countplot(x='Survived', hue='Embarked', data=d_train)

連続尺度についてグラフ表示

sns.distplot(d_train['Age'].dropna(),kde=False, bins=30)

sns.distplot(d_train['Fare'].dropna(),kde=False ) 

生存フラグについて連続尺度である従属変数により違いがあるか見てみる。


plt.figure(figsize=(12, 7))
sns.boxplot(x='Survied',y='Age',data=d_train)


plt.figure(figsize=(12, 7))
sns.boxplot(x='Survied',y='Fare',data=d_train)

データ間の関連を調べる


jointplot

 

 

メタ情報

inarticle



メタ情報

inarticle



-Python

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

automated the boring – day6

https://automatetheboringstuff.com/chapter11/ さてこの辺からようやく面白くなってくる。webscrapingをするにあたり、まずはブラウザをpythonか …

no image

pythonからgoogle translateを使う

まずはパッケージをpip経由でインストール pip install googletrans これで完了。あとは利用するだけです。 日本語を英語に翻訳するとき。 translator = Transla …

no image

Python + Slack Bot – 3

さてリアルタイムでとりあえずうまくいったので、もう少し違うサンプルコードを試してみる。 参考にしたのはこちら。 https://www.fullstackpython.com/blog/build-f …

no image

pythonでjanomeを使う

PythonでMecabを利用して形態要素解析に挑戦したところMecabが原因不明のエラーを引き起こしいったん断念。 代わりにJanomeを導入してみた。 Janomeは下記からインストーラを取得する …

no image

pycharmでターミナルからconda環境を利用する

pycharmでTerminalを開く conda環境を開く %windir%\System32\cmd.exe “/K” C:\ProgramData\Anaconda3\S …

2018年4月
« 3月   5月 »
 1
2345678
9101112131415
16171819202122
23242526272829
30  

side bar top



アーカイブ

カテゴリー