seabornを利用すれば基本となるビジュアルと分布、regressionをすぐに取得できる。
import seaborn as sns tips = sns.load_dataset('tips') tips.info() tips.head() tips.describe() sns.pairplot(tips, hue='sex', palette='coolwarm')
以上で基本の調査ができる。
データについてトレンドを見る場合にはvalue_counts()を利用する
df['zip'].value_counts().head(5)
カテゴリーのユニークを見る
df['zip'].unique()
ある一つの項目について分布をみるならば
sns.distplot(tips['total_bill'], kde=False)
2つ以上の変数に関連性を見るためにはjointplotを利用する。
sns.jointplot(x='total_bill', y='tip', data=tips, kind='kde')
カテゴリカル変数で違いがあるかを見るためにはまずcountplotでデータの件数を把握してbarplotで各変数に違いがあるかを確認する。
sns.countplot(x='sex', data=tips) sns.barplot(x='sex', y='total_bill', data=tips)