科学の箱

科学・IT・登山の話題

R 機械学習

dataanalysis-002-week3

投稿日:2013年12月26日 更新日:

exploratory analysis

グラフの目的

  • データのおおよそを理解する
  • パターンを探す
  • モデリングを探す
  • デバッグ
  • コミュニケーション

boxplot

  • 値のレンジを確認する
  • 他の値とレンジを比較する
  • 観察数を確認する

barplot

histgram

barplotとhistgramは異なる。barplotは定性的なデータを表現するのに使われ、X軸はつながっていない。ヒストグラムは定量的なデータを取扱い継続したデータであるために次のdensityで表現することも可能。

densityplot

scatterplot

  • プロットのサイズを変える
  • 軸のサイズを変える
  • 別の変数で色を付ける
  • 別の変数でプロットのサイズを変更する
  • 直線をオーバーレイする

qqplot

  • 取得したデータが正規分布に沿っているかを確認できる。

matplot

heatmap

expository

クラスタリング

クラスタリングの手順

  • 距離の定義
  • 距離を計算
  • グループにマージ
  • 閾値を設定

距離の計算方法

  • ユークリッド
  • マンハッタン
  • binary

k-meansクラスタリング

  • センターを決める
  • パーティションに分割する
  • 計算する
  • 元に戻る

2軸のクラスタリングを考える

例としてクラス全員の身体的特徴のデータを考える。このとき行はクラスにいる生徒(Id=1~40)とする。列としては、身長、体重、胸囲、視力、聴力、柔軟性とする。生徒についてクラスタリングをすると体育会系のクラブに所属している生徒、音楽が得意な生徒、眼鏡をかけている生徒などでクラスタリングされる。それに対して、変数のクラスタリングは変数同士の相関でクラスタリングされる。身長、体重、胸囲は相関があるので距離が近くなる。

次元を減らす

  • 主成分分析
  • 特異値分解

メモ

  • 文系でもわかるビジネス統計入門
  • http://www.geocities.co.jp/WallStreet/7166/SP/spss003.html
  • http://www.slideshare.net/horihorio/tokyo-r33-logi

メタ情報

inarticle



メタ情報

inarticle



-R, 機械学習
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

data.frameについて注意すること

以前predict()について検証を進めていた際に、不可解なエラーが出てしまい、途中で調査をやめてしまったことがあった。 具体的なエラーは以下である。 > newGalton$child &lt …

no image

irisを教師なし学習で分類ーGMM

これまでは正解ラベルがある前提、つまり教師あり学習でモデルを構築した。今回は正解ラベルがない前提でモデルを構築する。 教師なし学習としては混合ガウスモデルを利用する。 内容 データの読み込み、前処理 …

no image

ウェブ分析をハンズオンで学ぶ

ウェブ分析の本を読んでもあまりあたまに入ってこない。実際に手を動かさないと、身につかないわけである。 ということでハンズオンで実践して見ることにした。ハンズオンで実践するに当たり必要なのはデータとツー …

no image

irisをナイーブベイズで分類

ナイーブベイズの概要 ナイーブベイズは教師ありの分類アルゴリズムの一つである。 計算アルゴリズムとしてはベイズ定理を用いている。 機械学習における特徴としてはいかがある 実装が簡単であり、複雑なハイパ …

no image

サンプルサイズによる有意の違い

こちらでサンプル数について指摘をいただいたのでサンプル数によりp値がどのように変わるかをみてみる。  1996 2012 15~19歳 9 9 20~24歳 12 17 25~29歳 10 18 30 …

2013年12月
« 11月   1月 »
 1
2345678
9101112131415
16171819202122
23242526272829
3031  

side bar top



アーカイブ

カテゴリー