科学の箱

科学・IT・登山の話題

機械学習 統計

dataanalysis-002-week6

投稿日:2014年1月10日 更新日:

prediction study

  • motivation
  • 手順
  • データの選択
  • エラーの測定
  • デザイン

データの分割

  • トレーニング
  • テスト
  • 検証

true false positives

  • true positive
  • false positive
  • true negative
  • false negative

Error rate

Prediction Analysis

統計の方法というよりも予測をするための手順であり、モデルを決定するときに回帰分析などを使う。

Cross validation(交差検定)

どのような手法をとって予測をしたとしてもCross validationによってモデルを検証すること。

Prediction with regression

lm/glmは簡単で便利、線形であれば比較的よい結果を出す。ただし非線形であれば使えない。案外世の中は非線形がおおい。

手順

  • モデルが線形フィットするかを確認する
  • トレーニングセットとテストセットをつくる
  • 線形回帰をする
  • テストをしてみる
  • トレーニングセットとテストセットのエラーを取得する
  • カットオフを検証する
  • モデルをcross validationで比較する

Prediction with trees

メタ情報

inarticle



メタ情報

inarticle



-機械学習, 統計
-,

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Pythonではじめる機械学習 – KDE

カーネル密度分布とは カーネル密度分布とは一言でいうと滑らかなヒストグラムであり曲線になっている。標本データから確率密度を計算することにより標本がない部分についても確率密度を計算できる。 例えば犯罪の …

no image

Excelによる単回帰分析

エクセルでの単回帰分析をについて手順をまとめる。エクセルの使い方にあわせて分析結果の解釈の仕方も書いておく。 データは勉強時間に対する点数とする。これは作ったデータであるが、線形回帰にフィットするよう …

no image

データ取り込み後に確認すること

# tidyデータの原則 # 1カラム = 1変数 # 1行 = 1観察 # 1テーブル = 1 unique key # foreign key to link # テーブル全体で見ること # カラ …

no image

データ分析について評価する

デザイン コントロールグループはあるか モデル 検定の前提は満たしているか(正規分布) 従属変数の尺度は適切か(名義、順序、間隔、比率) 独立変数の数は適切か モデルについて説明できるか(独立変数の数 …

no image

Statistical Reasoning for Public Health

Module up to 3 SES – 社会経済的地位 Cognitive function – 認知機能 The authors used the graphic alon …

2014年1月
« 12月   2月 »
 12345
6789101112
13141516171819
20212223242526
2728293031  

side bar top



アーカイブ

カテゴリー