科学の箱

科学・IT・登山の話題

R 機械学習

dataanalysis-002-week3

投稿日:2013年12月26日 更新日:

exploratory analysis

グラフの目的

  • データのおおよそを理解する
  • パターンを探す
  • モデリングを探す
  • デバッグ
  • コミュニケーション

boxplot

  • 値のレンジを確認する
  • 他の値とレンジを比較する
  • 観察数を確認する

barplot

histgram

barplotとhistgramは異なる。barplotは定性的なデータを表現するのに使われ、X軸はつながっていない。ヒストグラムは定量的なデータを取扱い継続したデータであるために次のdensityで表現することも可能。

densityplot

scatterplot

  • プロットのサイズを変える
  • 軸のサイズを変える
  • 別の変数で色を付ける
  • 別の変数でプロットのサイズを変更する
  • 直線をオーバーレイする

qqplot

  • 取得したデータが正規分布に沿っているかを確認できる。

matplot

heatmap

expository

クラスタリング

クラスタリングの手順

  • 距離の定義
  • 距離を計算
  • グループにマージ
  • 閾値を設定

距離の計算方法

  • ユークリッド
  • マンハッタン
  • binary

k-meansクラスタリング

  • センターを決める
  • パーティションに分割する
  • 計算する
  • 元に戻る

2軸のクラスタリングを考える

例としてクラス全員の身体的特徴のデータを考える。このとき行はクラスにいる生徒(Id=1~40)とする。列としては、身長、体重、胸囲、視力、聴力、柔軟性とする。生徒についてクラスタリングをすると体育会系のクラブに所属している生徒、音楽が得意な生徒、眼鏡をかけている生徒などでクラスタリングされる。それに対して、変数のクラスタリングは変数同士の相関でクラスタリングされる。身長、体重、胸囲は相関があるので距離が近くなる。

次元を減らす

  • 主成分分析
  • 特異値分解

メモ

  • 文系でもわかるビジネス統計入門
  • http://www.geocities.co.jp/WallStreet/7166/SP/spss003.html
  • http://www.slideshare.net/horihorio/tokyo-r33-logi

メタ情報

inarticle



メタ情報

inarticle



-R, 機械学習
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Mahout環境構築

Mahoutのシステム要件を確認する。 Java 1.6.x or greater. Maven 3.x to build the source code. CPU, Disk and Memory …

no image

データ分析について評価する

デザイン コントロールグループはあるか モデル 検定の前提は満たしているか(正規分布) 従属変数の尺度は適切か(名義、順序、間隔、比率) 独立変数の数は適切か モデルについて説明できるか(独立変数の数 …

no image

irisでPCAを実行し可視化

irisデータをPCAで2次元に分類して可視化してみる。 内容 準備及びデータの前処理 PCA プロット   準備及びデータの前処理 irisデータを読み込み、PCAを実行するための前処理を …

no image

R Dataset – AirPassengers

データの説明 1949~1960年における月別飛行機搭乗者数 フォーマット このデータは時系列データであることがわかる。 > str(AirPassengers)  Time-Series [1 …

no image

SIGNATE お弁当の需要予測-1

SIGNATEのコンペであるお弁当の需要予測をpythonで分析 データは下記から取得できる https://signate.jp/competitions/24 ライブラリ読み込み importnu …

2013年12月
« 11月   1月 »
 1
2345678
9101112131415
16171819202122
23242526272829
3031  

side bar top



アーカイブ

カテゴリー