exploratory analysis
グラフの目的
- データのおおよそを理解する
- パターンを探す
- モデリングを探す
- デバッグ
- コミュニケーション
boxplot
- 値のレンジを確認する
- 他の値とレンジを比較する
- 観察数を確認する
barplot
histgram
barplotとhistgramは異なる。barplotは定性的なデータを表現するのに使われ、X軸はつながっていない。ヒストグラムは定量的なデータを取扱い継続したデータであるために次のdensityで表現することも可能。
densityplot
scatterplot
- プロットのサイズを変える
- 軸のサイズを変える
- 別の変数で色を付ける
- 別の変数でプロットのサイズを変更する
- 直線をオーバーレイする
qqplot
- 取得したデータが正規分布に沿っているかを確認できる。
matplot
heatmap
expository
クラスタリング
クラスタリングの手順
- 距離の定義
- 距離を計算
- グループにマージ
- 閾値を設定
距離の計算方法
- ユークリッド
- マンハッタン
- binary
k-meansクラスタリング
- センターを決める
- パーティションに分割する
- 計算する
- 元に戻る
2軸のクラスタリングを考える
例としてクラス全員の身体的特徴のデータを考える。このとき行はクラスにいる生徒(Id=1~40)とする。列としては、身長、体重、胸囲、視力、聴力、柔軟性とする。生徒についてクラスタリングをすると体育会系のクラブに所属している生徒、音楽が得意な生徒、眼鏡をかけている生徒などでクラスタリングされる。それに対して、変数のクラスタリングは変数同士の相関でクラスタリングされる。身長、体重、胸囲は相関があるので距離が近くなる。
次元を減らす
- 主成分分析
- 特異値分解
メモ
- 文系でもわかるビジネス統計入門
- http://www.geocities.co.jp/WallStreet/7166/SP/spss003.html
- http://www.slideshare.net/horihorio/tokyo-r33-logi