科学の箱

科学・IT・登山の話題

機械学習 統計

dataanalysis-002-week6

投稿日:2014年1月10日 更新日:

prediction study

  • motivation
  • 手順
  • データの選択
  • エラーの測定
  • デザイン

データの分割

  • トレーニング
  • テスト
  • 検証

true false positives

  • true positive
  • false positive
  • true negative
  • false negative

Error rate

Prediction Analysis

統計の方法というよりも予測をするための手順であり、モデルを決定するときに回帰分析などを使う。

Cross validation(交差検定)

どのような手法をとって予測をしたとしてもCross validationによってモデルを検証すること。

Prediction with regression

lm/glmは簡単で便利、線形であれば比較的よい結果を出す。ただし非線形であれば使えない。案外世の中は非線形がおおい。

手順

  • モデルが線形フィットするかを確認する
  • トレーニングセットとテストセットをつくる
  • 線形回帰をする
  • テストをしてみる
  • トレーニングセットとテストセットのエラーを取得する
  • カットオフを検証する
  • モデルをcross validationで比較する

Prediction with trees

メタ情報

inarticle



メタ情報

inarticle



-機械学習, 統計
-,

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

logistic regressionでの失敗

ロジスティック回帰でデータを分析しようとしたところうまくいかず。どうにもこうにもおかしな値が出るし、他の回帰分析との結果と明らか矛盾している。よくわからないのでとりあえずirisデータを使って手順を追 …

no image

R Dataset – AirPassengers

データの説明 1949~1960年における月別飛行機搭乗者数 フォーマット このデータは時系列データであることがわかる。 > str(AirPassengers)  Time-Series [1 …

no image

ANOVA(分散分析)の考え方

ANOVAには2つの側面がある。一つは3つ以上の集団で統計量について違いがあるかを検定する。もう一つは重回帰分析により各要因を説明変数としたときに目的変数に対する影響を計算する。 この2つは数学的には …

no image

dataanalysis-002-week4

クラスタリング SVDと組み合わせることでよりクラスに分かれているクラスタリングを実行できる。 散布図でクラスタリングする変数を探す クラスタリング SVDを実行する SVDの結果をクラスタリングに取 …

no image

R Dataset – bone

データの説明 261人の子供たちから得られた年齢別骨密度。 フォーマット idnum: 識別コード age: 測定時の年齢 gender: 性別 spnbmd: 骨密度 チェック テーブル全体について …

2014年1月
« 12月   2月 »
 12345
6789101112
13141516171819
20212223242526
2728293031  

side bar top



アーカイブ

カテゴリー