科学の箱

科学・IT・登山の話題

R 機械学習

dataanalysis-002-week3

投稿日:2013年12月26日 更新日:

exploratory analysis

グラフの目的

  • データのおおよそを理解する
  • パターンを探す
  • モデリングを探す
  • デバッグ
  • コミュニケーション

boxplot

  • 値のレンジを確認する
  • 他の値とレンジを比較する
  • 観察数を確認する

barplot

histgram

barplotとhistgramは異なる。barplotは定性的なデータを表現するのに使われ、X軸はつながっていない。ヒストグラムは定量的なデータを取扱い継続したデータであるために次のdensityで表現することも可能。

densityplot

scatterplot

  • プロットのサイズを変える
  • 軸のサイズを変える
  • 別の変数で色を付ける
  • 別の変数でプロットのサイズを変更する
  • 直線をオーバーレイする

qqplot

  • 取得したデータが正規分布に沿っているかを確認できる。

matplot

heatmap

expository

クラスタリング

クラスタリングの手順

  • 距離の定義
  • 距離を計算
  • グループにマージ
  • 閾値を設定

距離の計算方法

  • ユークリッド
  • マンハッタン
  • binary

k-meansクラスタリング

  • センターを決める
  • パーティションに分割する
  • 計算する
  • 元に戻る

2軸のクラスタリングを考える

例としてクラス全員の身体的特徴のデータを考える。このとき行はクラスにいる生徒(Id=1~40)とする。列としては、身長、体重、胸囲、視力、聴力、柔軟性とする。生徒についてクラスタリングをすると体育会系のクラブに所属している生徒、音楽が得意な生徒、眼鏡をかけている生徒などでクラスタリングされる。それに対して、変数のクラスタリングは変数同士の相関でクラスタリングされる。身長、体重、胸囲は相関があるので距離が近くなる。

次元を減らす

  • 主成分分析
  • 特異値分解

メモ

  • 文系でもわかるビジネス統計入門
  • http://www.geocities.co.jp/WallStreet/7166/SP/spss003.html
  • http://www.slideshare.net/horihorio/tokyo-r33-logi

メタ情報

inarticle



メタ情報

inarticle



-R, 機械学習
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Pythonではじめる機械学習 – k-Means

k-Meansの概要 k-Meansは教師なし学習の一つであり、あらかじめ指定された数にグループを分ける。 例えば今身長である程度まとまって席に座っている生徒を考えます。k-Meansでは最初に分ける …

no image

会社を変える分析の力

ユーザに関する問題 不確実性 過剰期待 事前期待 分析モデルの利用 パターン 変数の数 分析の利用 予測 判別 グループ 検知 最適化 発見 探索 データ分析の必要性 なぜ誤差がでるのか Costは …

no image

irisをナイーブベイズで分類

ナイーブベイズの概要 ナイーブベイズは教師ありの分類アルゴリズムの一つである。 計算アルゴリズムとしてはベイズ定理を用いている。 機械学習における特徴としてはいかがある 実装が簡単であり、複雑なハイパ …

no image

ウェブ分析をハンズオンで学ぶ

ウェブ分析の本を読んでもあまりあたまに入ってこない。実際に手を動かさないと、身につかないわけである。 ということでハンズオンで実践して見ることにした。ハンズオンで実践するに当たり必要なのはデータとツー …

no image

Rでグラフを作成するときに参考にするサイト

金子 邦彦 研究室 Web ページ バイオスタティスティクス 奥村 晴彦研究室 Related posts:splineを利用する分散分析のcase study一対比較法によるリーグ戦の分析

2013年12月
« 11月   1月 »
 1
2345678
9101112131415
16171819202122
23242526272829
3031  

side bar top



アーカイブ

カテゴリー