科学の箱

科学・IT・登山の話題

R 機械学習

dataanalysis-002-week2

投稿日:2013年12月13日 更新日:

Structure of Data Analysis

  • 質問を定義する
  • 理想的なデータセットの定義
  • アクセスできるデータの検索
  • データの取得
  • クレンジング
  • Exploratory
  • 統計的予測・モデリング
  • 解釈
  • Challenge
  • write up
  • reproduciable code

理想的なデータセット

  • descriptive  -> Census
  • Exploratory -> ランダムで複数変数
  • inferential -> 正しい母集団から正しいサンプリング
  • Predictive -> トレーニングセットとテストデータ
  • Causal -> ランダムサンプル
  • mechanistic -> モデルにおける変数に関するすべてのデータ

Predictive分析の例

  • スパムの解析
    • メールに含まれている単語の定量分析によりスパムメイルを識別できるか。

Exploratory分析の手順

  • データの要約を確認する
  • ミッシングデータおよび例外データの確認
  • プロット
  • クラスタリング

データの要約

http://www.asnm4.com/itinfra/index.php?cmd=read&page=R%2FTable&word=head

Interpret

  • 適切な言葉の選択
    • descriptive -> 表現する
    • exploratory -> 関係する
    • causal -> 導く、引き起こされる
    • predictive -> 予期される

     

Data Analysis files

  • data
  • figure
  • r code
  • text

Getting data

  • ディレクトリの設定
    getwd(), setwd()
  • データのタイプタブ、CSV, Excel, JSON, HTML, クローラー
  • ダウンロードをする
    download.file()
  • テーブルに読み込む
    read.table, read.xlsx, , read.csv
  • file.choose()を使って、GUIで読み込みたいファイルを指定する

Getting data – 2

  • file
  • url
  • bzfile
  • gzfile
  • fromJson
  • make sure to close the connection

Writing data

  • write.table
  • save
  • save.image()

rda形式ですべてを保管できる save <-> load

文字列の操作

  • paste
  • paste0

htmlの解析

  • htmltreeparse

データについて検証すること

  • missing data
  • 例外
  • 単位がおかしいデータ
  • ラベル
  • フィールドの属性(文字、数値、日付、バイナリ)

とりあえず流すコマンド

  • dim, names, nrows, ncols
  • quantile
  • summary
  • unique, length, table プライマリキーもしくはキーに準ずるフィールドにかける
  • tableは2次元で実行できる
  • anyとallでデータのパターンを見る
  • rowSums, rowMeans

目指すべきデータセット

  • 行にひとつの観察
  • 列に一つの属性
  • テーブルは一種類の観察
  • 列に適切なラベル
  • 行はuniqueに切り分けられる
  • 明らかにおかしいデータの除外
  • 内部的にデータは一貫している
  • 適切なtransform

munging

  • 変数名の修正
  • 新しい変数の追加
  • Merge
  • reshape  : pivot melt()
  • ミッシングデータ
  • 一貫性のないデータの削除

cutを何に使うのか

http://vita.had.co.nz/papers/tidy-data.pdf

まとめ方

  • 質問の設定
  • アプローチ
  • 解釈
  • challenge to result

データのチェック

  • 記述統計
  • 正規のチェック
  • プロット
  • logでプロット
  • クラスタリング

データの読み込み

fileurl <- "http://data.baltimorecity.gov/api/views/dz54-2aru/rows.csv?accessType=DOWNLOAD"
download.file(fileurl, destfile=".camera.csv", method="auto")

メタ情報

inarticle



メタ情報

inarticle



-R, 機械学習
-,

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

oneway.test, aov, anovaの違い-2

さてoneway.test, aov, anovaの違いをもとにしてそれぞれの関数について調べてみる。 機能 advantage disadvantage oneway.test 分散分析 等分散を仮 …

no image

irisでPCAを実行し可視化

irisデータをPCAで2次元に分類して可視化してみる。 内容 準備及びデータの前処理 PCA プロット   準備及びデータの前処理 irisデータを読み込み、PCAを実行するための前処理を …

no image

Wilcoxonの符号付順位決定

boneのspnbmdを使って年齢別に男女差があるかを確認してみる。検定ではWilcoxonの符号付順位決定を利用する。 boneは特定個人について骨密度を計測している。データにはIDと骨密度以外に性 …

no image

主成分分析

Rで提供されているirisを使って主成分分析を実施する。 主成分分析の手順 データが分離できるか検証する 主成分負荷量と寄与率を求める 新しい変数に名前を付ける 変量プロット 主成分プロット 今回はR …

no image

ラテン方格

ラテン方格は1~nまでの数字についてn x nの正方行列に一回だけ現れるように並べたものである。ラテン方格を利用して実験の割り付けを行う実験計画法がラテン方格法である。 ラテン方格法と似た実験計画法に …

2013年12月
« 11月   1月 »
 1
2345678
9101112131415
16171819202122
23242526272829
3031  

side bar top



アーカイブ

カテゴリー