科学の箱

科学・IT・登山の話題

R 機械学習

dataanalysis-002-week2

投稿日:2013年12月13日 更新日:

Structure of Data Analysis

  • 質問を定義する
  • 理想的なデータセットの定義
  • アクセスできるデータの検索
  • データの取得
  • クレンジング
  • Exploratory
  • 統計的予測・モデリング
  • 解釈
  • Challenge
  • write up
  • reproduciable code

理想的なデータセット

  • descriptive  -> Census
  • Exploratory -> ランダムで複数変数
  • inferential -> 正しい母集団から正しいサンプリング
  • Predictive -> トレーニングセットとテストデータ
  • Causal -> ランダムサンプル
  • mechanistic -> モデルにおける変数に関するすべてのデータ

Predictive分析の例

  • スパムの解析
    • メールに含まれている単語の定量分析によりスパムメイルを識別できるか。

Exploratory分析の手順

  • データの要約を確認する
  • ミッシングデータおよび例外データの確認
  • プロット
  • クラスタリング

データの要約

http://www.asnm4.com/itinfra/index.php?cmd=read&page=R%2FTable&word=head

Interpret

  • 適切な言葉の選択
    • descriptive -> 表現する
    • exploratory -> 関係する
    • causal -> 導く、引き起こされる
    • predictive -> 予期される

     

Data Analysis files

  • data
  • figure
  • r code
  • text

Getting data

  • ディレクトリの設定
    getwd(), setwd()
  • データのタイプタブ、CSV, Excel, JSON, HTML, クローラー
  • ダウンロードをする
    download.file()
  • テーブルに読み込む
    read.table, read.xlsx, , read.csv
  • file.choose()を使って、GUIで読み込みたいファイルを指定する

Getting data – 2

  • file
  • url
  • bzfile
  • gzfile
  • fromJson
  • make sure to close the connection

Writing data

  • write.table
  • save
  • save.image()

rda形式ですべてを保管できる save <-> load

文字列の操作

  • paste
  • paste0

htmlの解析

  • htmltreeparse

データについて検証すること

  • missing data
  • 例外
  • 単位がおかしいデータ
  • ラベル
  • フィールドの属性(文字、数値、日付、バイナリ)

とりあえず流すコマンド

  • dim, names, nrows, ncols
  • quantile
  • summary
  • unique, length, table プライマリキーもしくはキーに準ずるフィールドにかける
  • tableは2次元で実行できる
  • anyとallでデータのパターンを見る
  • rowSums, rowMeans

目指すべきデータセット

  • 行にひとつの観察
  • 列に一つの属性
  • テーブルは一種類の観察
  • 列に適切なラベル
  • 行はuniqueに切り分けられる
  • 明らかにおかしいデータの除外
  • 内部的にデータは一貫している
  • 適切なtransform

munging

  • 変数名の修正
  • 新しい変数の追加
  • Merge
  • reshape  : pivot melt()
  • ミッシングデータ
  • 一貫性のないデータの削除

cutを何に使うのか

http://vita.had.co.nz/papers/tidy-data.pdf

まとめ方

  • 質問の設定
  • アプローチ
  • 解釈
  • challenge to result

データのチェック

  • 記述統計
  • 正規のチェック
  • プロット
  • logでプロット
  • クラスタリング

データの読み込み

fileurl <- "http://data.baltimorecity.gov/api/views/dz54-2aru/rows.csv?accessType=DOWNLOAD"
download.file(fileurl, destfile=".camera.csv", method="auto")

メタ情報

inarticle



メタ情報

inarticle



-R, 機械学習
-,

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Pythonではじめる機械学習 – Chap03

3.1 Types of Unsupervised Learning 教師なし学習の例 次元削減: 重要な特徴量のみを使って元のデータを表現する トピック抽出: データを構成する部品を見つける クラス …

no image

rvestで読み込むcssを調べる方法

rvestで対象とするhtmlのブロックは下記のように取得できる。 http://blog.rstudio.com/2014/11/24/rvest-easy-web-scraping-with-r/ …

no image

データ分析の基本と業務

開発生産性は調和平均で計算する。 安全性の在庫の計算には正規分布を利用できる。 標準偏差=5であることを利用すると何が言えるか。 Z=1.96で95%をカバーする。 よって 5 x 1.96でほぼ10 …

no image

ウェブ分析をハンズオンで学ぶ

ウェブ分析の本を読んでもあまりあたまに入ってこない。実際に手を動かさないと、身につかないわけである。 ということでハンズオンで実践して見ることにした。ハンズオンで実践するに当たり必要なのはデータとツー …

no image

線形回帰とリッジ回帰とラッソ回帰の違い

用語 線形回帰 データから平均二乗誤差を最低にするパラメータΘを求めて、直線で回帰すること $$ y = Θ_0 + Θ_1 \times x $$ コスト関数 損失関数とも呼ばれる。実際のデータと予 …

2013年12月
« 11月   1月 »
 1
2345678
9101112131415
16171819202122
23242526272829
3031  

side bar top



アーカイブ

カテゴリー