科学の箱

科学・IT・登山の話題

Python

seabornをEDAに応用する

投稿日:2018年3月27日 更新日:

seabornを利用すれば基本となるビジュアルと分布、regressionをすぐに取得できる。


import seaborn as sns

tips = sns.load_dataset('tips')

tips.info()

tips.head()

tips.describe()

sns.pairplot(tips, hue='sex', palette='coolwarm')

以上で基本の調査ができる。

 

データについてトレンドを見る場合にはvalue_counts()を利用する


df['zip'].value_counts().head(5)

 

カテゴリーのユニークを見る

df['zip'].unique()

 

ある一つの項目について分布をみるならば


sns.distplot(tips['total_bill'], kde=False)

 

 

2つ以上の変数に関連性を見るためにはjointplotを利用する。


sns.jointplot(x='total_bill', y='tip', data=tips, kind='kde')

 

カテゴリカル変数で違いがあるかを見るためにはまずcountplotでデータの件数を把握してbarplotで各変数に違いがあるかを確認する。


sns.countplot(x='sex', data=tips)

sns.barplot(x='sex', y='total_bill', data=tips)

 

メタ情報

inarticle



メタ情報

inarticle



-Python
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

蟻本 P42 硬貨の問題

貪欲法の基本 その時点で最善の手を尽くす 尽くした結果を目的とする値に反映させる。 次善の手になるようにする。 1に戻る 硬貨の問題 A=int(input()) *C,=map(int,input( …

no image

numpyのインポートおよび環境確認

機械学習をする際には必須のnumpy。まずはインポートして利用できるようにする。 import numpy as np # 正しくインポートされれば基本的にはメッセージが出てこない。 逆に下記のような …

no image

画面に描画する線のフォーマットを変える

matplotlib.pyplot.plot()関数では線の形式を簡単に変えることができる。 ここでは以下を説明する。 線種別、色、太さを指定 線のマーカーを指定 線種別、色、太さを指定 線種別、色、 …

no image

requests.exceptions.SSLError: HTTPSConnectionPoolの対応方法

エラー raise SSLError(e, request=request) requests.exceptions.SSLError: HTTPSConnectionPool(host=&#8217 …

no image

Pythonで文字列を生成するときの方法についてまとめる

Pythonで文字列を生成するときには様々な方法があるのでまとめる。 まず最も基本となるのは生成したい文字をシングルクォーテーションもしくはダブルクォーテーションで囲む方法である。どちらの方法を使って …

2018年3月
« 2月   4月 »
 1234
567891011
12131415161718
19202122232425
262728293031  

side bar top



アーカイブ

カテゴリー