科学の箱

科学・IT・登山の話題

機械学習

irisデータを読み込んでseabornでいろいろ表示をしてみる。

投稿日:

data可視化ライブラリのseabornではすぐに機械学習を始められるように質が良いデータが用意されている。その中でも最も有名であるirisについてpairplotを使って可視化してみる。

ここでは以下について説明する

  • seabornで用意されているデータ
  • irisの読み込み方
  • seaborn.pairplotで可視化
  • カテゴリ別にデータを可視化

seabornで用意されているデータ

seabornで用意されているデータは.get_dataset_names()で取得できる。

print(sns.get_dataset_names())
# ['anscombe', 'attention', 'brain_networks', 'car_crashes', 'diamonds', 'dots', 'exercise', 'flights', 'fmri', 'gammas', 'iris', 'mpg', 'planets', 'tips', 'titanic']

 

このデータの本体はgithubで公開されている。

seaborn-data ー github

 

irisの読み込み方

irisデータを読み込む。iris.DESCRでそのデータセットの説明が出てくる。

import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()
# 

scikit-learnでもirisデータは用意されている。しかし初めてである場合にはseabornのデータセットを使うほうが簡単である。その理由としては、speciesがついているので、すでに正解データがわかる。これにより機械学習のモデルづくりと検証が簡単にできる。2つ目の理由としては読み込むとすぐにDataFrameになっていることである。scikit-learnのデータはndarray型であるためにpandas.DataFrameで変換する必要がある。

 

seabornでデータを可視化

seabornを利用するとデータの可視化が簡単にできる。

seabornで最も強力なt関数の一つがpairplotをある。この関数にデータを送るとすべてのカラムについてペアで可視化をする。しかも変数の種類により、グラフも変えてくれる。

sns.pairplot(iris)

カテゴリ別にデータを可視化

さてデータを可視化をしてみたがこれだけではデータ分析のために役立つは言い難い。例えば次の散布図を見てみる。

こちらは大きく分けて2つのブロックに分かれている。知りたいにはこのブロックが種類によって分かれているのか、それともランダムかである。

もし種類によって分かれているということであればx軸とy軸の値の関係から、最小二乗法で種類を予測することができる。もちろんすべて総当たりでという方法もあるが、データ量が多い場合にはあらかじめ絞りこみができれば都合がよい。

この時に役に立つのがhueである。

seaborn.pairplot(data, hue=None, hue_order=None, palette=None, vars=None, x_vars=None, y_vars=None, kind=’scatter’, diag_kind=’auto’, markers=None, height=2.5, aspect=1, dropna=True, plot_kws=None, diag_kws=None, grid_kws=None, size=None)

hueはデフォルトでは指定されていないのでカテゴリ別にわけずデータを可視化する。いまhueに’species’を指定する。

これにより例えばsepal_lengthとsepal_widthを利用すればspeciesを分けられる可能性があることがわかる。

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

実践ワークショップExcel徹底活用ビジネスデータ分析

メモ 相関係数の行列で傾向が似ている変数を探すことができる。例えば過去データとして商品A,B,C,D,E,Fがあるとする。今商品Xを開発し、マーケティング方法を決めたい。この時A~Fについてはすでに売 …

no image

Core Concept in Data Analysis – Week 2

1D analysis summary ヒストグラム ヒストグラムのタイプ:gaussian/power law 中心極限定理 確率分布 ブートストラップによる検証 gaussian 測定誤差もしくは …

no image

仕事で始める機械学習 – 4章 システムに機械学習を組み込む

機械学習アーキテクチャ 学習方法としては3つのパターンがある バッチ処理で一括学習 バッチ処理で逐次学習 リアルタイムで逐次学習 学習と予測パターンの提供方法としては4つのパターンがある バッチ学習- …

no image

ウェブ分析をハンズオンで学ぶ

ウェブ分析の本を読んでもあまりあたまに入ってこない。実際に手を動かさないと、身につかないわけである。 ということでハンズオンで実践して見ることにした。ハンズオンで実践するに当たり必要なのはデータとツー …

no image

回帰と分類の違い

回帰と分類は両方とも”予測”問題である。予測とは従属変数から目的変数を明らかにする。この目的変数の種類により回帰と分類に分けられる。 回帰では連続した数値を予測する。例えば株価 …

2019年9月
« 8月   10月 »
 1
2345678
9101112131415
16171819202122
23242526272829
30  

side bar top



アーカイブ

カテゴリー