科学の箱

科学・IT・登山の話題

機械学習 統計

dataanalysis-002-week6

投稿日:2014年1月10日 更新日:

prediction study

  • motivation
  • 手順
  • データの選択
  • エラーの測定
  • デザイン

データの分割

  • トレーニング
  • テスト
  • 検証

true false positives

  • true positive
  • false positive
  • true negative
  • false negative

Error rate

Prediction Analysis

統計の方法というよりも予測をするための手順であり、モデルを決定するときに回帰分析などを使う。

Cross validation(交差検定)

どのような手法をとって予測をしたとしてもCross validationによってモデルを検証すること。

Prediction with regression

lm/glmは簡単で便利、線形であれば比較的よい結果を出す。ただし非線形であれば使えない。案外世の中は非線形がおおい。

手順

  • モデルが線形フィットするかを確認する
  • トレーニングセットとテストセットをつくる
  • 線形回帰をする
  • テストをしてみる
  • トレーニングセットとテストセットのエラーを取得する
  • カットオフを検証する
  • モデルをcross validationで比較する

Prediction with trees

メタ情報

inarticle



メタ情報

inarticle



-機械学習, 統計
-,

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

データ分析のメモ

一変量解析 各変数についてsummaryをとり、平均値、分散を確認する。変数について尺度を確認してどのように分析を進めるかを考える。 度数分布を作成して値の分布をみてみる。正規分布の値であればいろいろ …

no image

ポワソン分布の利用

一時間に平均7通のメールが来るとき100回試行した時のメール受信件数を調べる > rpois(100,7)  [1]  7 10  2  8  5  4  4  9  2  3  9  6  9 …

no image

pythonでEDAを実施する – 記述統計

データを取り込む data frameに変換する desdribe()メソッドで要約統計量を出力 各項目について残差分析(ここでは各データが平均値からどの程度離れているか、要するに分散の傾向を把握する …

no image

SIGNATE お弁当の需要予測-2

データの内容を確認する。 期間を調べる d_train[‘datetime’].min() ‘ ‘2013-11-18’ d_train[‘datetime’].max() ‘ ‘2014-9-9’ …

no image

仕事で始める機械学習 – 3.学習結果を評価しよう – 指標

主な指標 モデル構築後に確認する主な指標は4つある。 正解率 適合率 再現率 F値 正解率 $$ 正解率 = \frac{TP + TN}{TP+FP+TN+FN} $$ 正解率は全データ数に対する正 …

2014年1月
« 12月   2月 »
 12345
6789101112
13141516171819
20212223242526
2728293031  

side bar top



アーカイブ

カテゴリー