科学の箱

科学・IT・登山の話題

R 機械学習

dataanalysis-002-week2

投稿日:2013年12月13日 更新日:

Structure of Data Analysis

  • 質問を定義する
  • 理想的なデータセットの定義
  • アクセスできるデータの検索
  • データの取得
  • クレンジング
  • Exploratory
  • 統計的予測・モデリング
  • 解釈
  • Challenge
  • write up
  • reproduciable code

理想的なデータセット

  • descriptive  -> Census
  • Exploratory -> ランダムで複数変数
  • inferential -> 正しい母集団から正しいサンプリング
  • Predictive -> トレーニングセットとテストデータ
  • Causal -> ランダムサンプル
  • mechanistic -> モデルにおける変数に関するすべてのデータ

Predictive分析の例

  • スパムの解析
    • メールに含まれている単語の定量分析によりスパムメイルを識別できるか。

Exploratory分析の手順

  • データの要約を確認する
  • ミッシングデータおよび例外データの確認
  • プロット
  • クラスタリング

データの要約

http://www.asnm4.com/itinfra/index.php?cmd=read&page=R%2FTable&word=head

Interpret

  • 適切な言葉の選択
    • descriptive -> 表現する
    • exploratory -> 関係する
    • causal -> 導く、引き起こされる
    • predictive -> 予期される

     

Data Analysis files

  • data
  • figure
  • r code
  • text

Getting data

  • ディレクトリの設定
    getwd(), setwd()
  • データのタイプタブ、CSV, Excel, JSON, HTML, クローラー
  • ダウンロードをする
    download.file()
  • テーブルに読み込む
    read.table, read.xlsx, , read.csv
  • file.choose()を使って、GUIで読み込みたいファイルを指定する

Getting data – 2

  • file
  • url
  • bzfile
  • gzfile
  • fromJson
  • make sure to close the connection

Writing data

  • write.table
  • save
  • save.image()

rda形式ですべてを保管できる save <-> load

文字列の操作

  • paste
  • paste0

htmlの解析

  • htmltreeparse

データについて検証すること

  • missing data
  • 例外
  • 単位がおかしいデータ
  • ラベル
  • フィールドの属性(文字、数値、日付、バイナリ)

とりあえず流すコマンド

  • dim, names, nrows, ncols
  • quantile
  • summary
  • unique, length, table プライマリキーもしくはキーに準ずるフィールドにかける
  • tableは2次元で実行できる
  • anyとallでデータのパターンを見る
  • rowSums, rowMeans

目指すべきデータセット

  • 行にひとつの観察
  • 列に一つの属性
  • テーブルは一種類の観察
  • 列に適切なラベル
  • 行はuniqueに切り分けられる
  • 明らかにおかしいデータの除外
  • 内部的にデータは一貫している
  • 適切なtransform

munging

  • 変数名の修正
  • 新しい変数の追加
  • Merge
  • reshape  : pivot melt()
  • ミッシングデータ
  • 一貫性のないデータの削除

cutを何に使うのか

http://vita.had.co.nz/papers/tidy-data.pdf

まとめ方

  • 質問の設定
  • アプローチ
  • 解釈
  • challenge to result

データのチェック

  • 記述統計
  • 正規のチェック
  • プロット
  • logでプロット
  • クラスタリング

データの読み込み

fileurl <- "http://data.baltimorecity.gov/api/views/dz54-2aru/rows.csv?accessType=DOWNLOAD"
download.file(fileurl, destfile=".camera.csv", method="auto")

メタ情報

inarticle



メタ情報

inarticle



-R, 機械学習
-,

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

irisをナイーブベイズで分類

ナイーブベイズの概要 ナイーブベイズは教師ありの分類アルゴリズムの一つである。 計算アルゴリズムとしてはベイズ定理を用いている。 機械学習における特徴としてはいかがある 実装が簡単であり、複雑なハイパ …

no image

スピアマンの順位相関

スピアマンの順位相関を利用して県のデータを使った相関係数を出してみる。 持家普及率を自動車普及率のランキングは、土地がせまいほど低く、有効な土地が広いほど高くなるために順位相関があると考えられる。 持 …

no image

独立性の検定 2つ

ニートの年齢別割合が1996年と2012年で関連性があるか独立性の検定をしてみる。 ニートの割合  1996 2012 15~19歳 9 9 20~24歳 12 17 25~29歳 10 18 30~ …

no image

因子分析

因子分析とは 因子分析では複雑な現象を単純な要因で理解するための手法。集められた個別のデータは結果である目的変数とその目的変数の原因である説明変数に分かれる。目的変数を観察できた結果とし、目的変数に影 …

no image

Rによるやさしい統計学/5-統計的検定-2

練習問題-2 勉強時間と定期試験の点数についてデータを作成する。 study_time <- c(1, 3, 10, 12, 6, 3, 8, 4, 1, 5) point <- c(20 …

2013年12月
« 11月   1月 »
 1
2345678
9101112131415
16171819202122
23242526272829
3031  

side bar top



アーカイブ

カテゴリー