科学の箱

科学・IT・登山の話題

R 機械学習

dataanalysis-002-week3

投稿日:2013年12月26日 更新日:

exploratory analysis

グラフの目的

  • データのおおよそを理解する
  • パターンを探す
  • モデリングを探す
  • デバッグ
  • コミュニケーション

boxplot

  • 値のレンジを確認する
  • 他の値とレンジを比較する
  • 観察数を確認する

barplot

histgram

barplotとhistgramは異なる。barplotは定性的なデータを表現するのに使われ、X軸はつながっていない。ヒストグラムは定量的なデータを取扱い継続したデータであるために次のdensityで表現することも可能。

densityplot

scatterplot

  • プロットのサイズを変える
  • 軸のサイズを変える
  • 別の変数で色を付ける
  • 別の変数でプロットのサイズを変更する
  • 直線をオーバーレイする

qqplot

  • 取得したデータが正規分布に沿っているかを確認できる。

matplot

heatmap

expository

クラスタリング

クラスタリングの手順

  • 距離の定義
  • 距離を計算
  • グループにマージ
  • 閾値を設定

距離の計算方法

  • ユークリッド
  • マンハッタン
  • binary

k-meansクラスタリング

  • センターを決める
  • パーティションに分割する
  • 計算する
  • 元に戻る

2軸のクラスタリングを考える

例としてクラス全員の身体的特徴のデータを考える。このとき行はクラスにいる生徒(Id=1~40)とする。列としては、身長、体重、胸囲、視力、聴力、柔軟性とする。生徒についてクラスタリングをすると体育会系のクラブに所属している生徒、音楽が得意な生徒、眼鏡をかけている生徒などでクラスタリングされる。それに対して、変数のクラスタリングは変数同士の相関でクラスタリングされる。身長、体重、胸囲は相関があるので距離が近くなる。

次元を減らす

  • 主成分分析
  • 特異値分解

メモ

  • 文系でもわかるビジネス統計入門
  • http://www.geocities.co.jp/WallStreet/7166/SP/spss003.html
  • http://www.slideshare.net/horihorio/tokyo-r33-logi

メタ情報

inarticle



メタ情報

inarticle



-R, 機械学習
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

irisデータを読み込んでseabornでいろいろ表示をしてみる。

data可視化ライブラリのseabornではすぐに機械学習を始められるように質が良いデータが用意されている。その中でも最も有名であるirisについてpairplotを使って可視化してみる。 ここでは以 …

no image

Rによるやさしい統計学/6-2つの平均値を比較する

(1) 統計が好きか嫌いかで統計テスト1の得点について有意な差はあるか。 指導法データは score.csvに作成する。 ID,名前,性別,数学,統計,心理学テスト,統計テスト1,統計テスト2,指導法 …

no image

Rでのラインの表示

Rでラインを引くために関数がいくつか用意されている。 abline() 画像全体に線を引く segments() 始点と終点を指定してその間に線を引く points() “点” …

no image

一対比較法

一対比較法では複数の対象の順位を、個別の比較結果から明らかにすることができる。例えば今5種類の携帯電話があり、好ましさの順位を知りたいとする。一対比較法を利用しなければ、回答者は5について順番をつけて …

no image

Wilcoxonの符号付順位決定

boneのspnbmdを使って年齢別に男女差があるかを確認してみる。検定ではWilcoxonの符号付順位決定を利用する。 boneは特定個人について骨密度を計測している。データにはIDと骨密度以外に性 …

2013年12月
« 11月   1月 »
 1
2345678
9101112131415
16171819202122
23242526272829
3031  

side bar top



アーカイブ

カテゴリー