科学の箱

科学・IT・登山の話題

R 機械学習

dataanalysis-002-week3

投稿日:2013年12月26日 更新日:

exploratory analysis

グラフの目的

  • データのおおよそを理解する
  • パターンを探す
  • モデリングを探す
  • デバッグ
  • コミュニケーション

boxplot

  • 値のレンジを確認する
  • 他の値とレンジを比較する
  • 観察数を確認する

barplot

histgram

barplotとhistgramは異なる。barplotは定性的なデータを表現するのに使われ、X軸はつながっていない。ヒストグラムは定量的なデータを取扱い継続したデータであるために次のdensityで表現することも可能。

densityplot

scatterplot

  • プロットのサイズを変える
  • 軸のサイズを変える
  • 別の変数で色を付ける
  • 別の変数でプロットのサイズを変更する
  • 直線をオーバーレイする

qqplot

  • 取得したデータが正規分布に沿っているかを確認できる。

matplot

heatmap

expository

クラスタリング

クラスタリングの手順

  • 距離の定義
  • 距離を計算
  • グループにマージ
  • 閾値を設定

距離の計算方法

  • ユークリッド
  • マンハッタン
  • binary

k-meansクラスタリング

  • センターを決める
  • パーティションに分割する
  • 計算する
  • 元に戻る

2軸のクラスタリングを考える

例としてクラス全員の身体的特徴のデータを考える。このとき行はクラスにいる生徒(Id=1~40)とする。列としては、身長、体重、胸囲、視力、聴力、柔軟性とする。生徒についてクラスタリングをすると体育会系のクラブに所属している生徒、音楽が得意な生徒、眼鏡をかけている生徒などでクラスタリングされる。それに対して、変数のクラスタリングは変数同士の相関でクラスタリングされる。身長、体重、胸囲は相関があるので距離が近くなる。

次元を減らす

  • 主成分分析
  • 特異値分解

メモ

  • 文系でもわかるビジネス統計入門
  • http://www.geocities.co.jp/WallStreet/7166/SP/spss003.html
  • http://www.slideshare.net/horihorio/tokyo-r33-logi

メタ情報

inarticle



メタ情報

inarticle



-R, 機械学習
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Rによるやさしい統計学/4-母集団と標本

言葉の定義 推測統計、推定、点推定、区間推定、検定 標本、標本統計量、推定量、標本抽出、確率変数、確率分布、標本誤差 標本分布、標本統計量、平均、標準偏差、標準誤差 4.5 標本分布 標本平均の標本分 …

no image

Core Concept in Data Analysis – Week 3

2d Analsysis 分布図 相関 回帰分析 因果関係 ガルトンはダーウィンのいとこ Related posts:dataanalysis-002-week1Statistical Reasoni …

no image

kaggle Titanic Tutorial – 3

DecitionTreeのパラメータを調整する。 まずはMaxDepthから from sklearn.model_selection import LeaveOneOut from sklearn. …

no image

線形回帰とリッジ回帰とラッソ回帰の違い

用語 線形回帰 データから平均二乗誤差を最低にするパラメータΘを求めて、直線で回帰すること $$ y = Θ_0 + Θ_1 \times x $$ コスト関数 損失関数とも呼ばれる。実際のデータと予 …

no image

pythonのデータ分析ライブラリで遊んでみる。

こちらを参考にしてPythonのデータ分析用のライブラリをそろえてみた。 まずはお手軽にヒストグラムを書いてみる。コマンドラインからipythonを立ち上げる。 ipython –pylab &#8 …

2013年12月
« 11月   1月 »
 1
2345678
9101112131415
16171819202122
23242526272829
3031  

side bar top



アーカイブ

カテゴリー