科学の箱

科学・IT・登山の話題

機械学習 統計

dataanalysis-002-week6

投稿日:2014年1月10日 更新日:

prediction study

  • motivation
  • 手順
  • データの選択
  • エラーの測定
  • デザイン

データの分割

  • トレーニング
  • テスト
  • 検証

true false positives

  • true positive
  • false positive
  • true negative
  • false negative

Error rate

Prediction Analysis

統計の方法というよりも予測をするための手順であり、モデルを決定するときに回帰分析などを使う。

Cross validation(交差検定)

どのような手法をとって予測をしたとしてもCross validationによってモデルを検証すること。

Prediction with regression

lm/glmは簡単で便利、線形であれば比較的よい結果を出す。ただし非線形であれば使えない。案外世の中は非線形がおおい。

手順

  • モデルが線形フィットするかを確認する
  • トレーニングセットとテストセットをつくる
  • 線形回帰をする
  • テストをしてみる
  • トレーニングセットとテストセットのエラーを取得する
  • カットオフを検証する
  • モデルをcross validationで比較する

Prediction with trees

メタ情報

inarticle



メタ情報

inarticle



-機械学習, 統計
-,

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

AWStatで基本指標を読む

ウェッブサイトの分析でまず見るべきことは月ごとのトレンドである。確認すべき指標はPV, 訪問数、UUdとなる。 AWStatではこれらの項目はWhen -> Month Historyで棒グラフ …

no image

Pythonではじめる機械学習 – Chap03

3.1 Types of Unsupervised Learning 教師なし学習の例 次元削減: 重要な特徴量のみを使って元のデータを表現する トピック抽出: データを構成する部品を見つける クラス …

no image

回帰と分類の違い

回帰と分類は両方とも”予測”問題である。予測とは従属変数から目的変数を明らかにする。この目的変数の種類により回帰と分類に分けられる。 回帰では連続した数値を予測する。例えば株価 …

no image

仕事で始める機械学習 – 1. 機械学習プロジェクトの始め方

機械学習プロジェクトの流れ 問題の定式化 機械学習を利用しない方法 システム設計 アルゴリズム選定 特徴量・教師データ・ログの設計 前処理 学習・パラメータチューニング システム統合 問題の定式化 目 …

no image

データサイエンス超入門

シンプソンのパラドックス レコメンドエンジン コンテンツベースフィルタリング 強調 アイテム ユーザー ビジネスにおけるデータ分析の手順 課題→ビジネスケース→仮説→分析→用途 データ分析の手順 デー …

2014年1月
« 12月   2月 »
 12345
6789101112
13141516171819
20212223242526
2728293031  

side bar top



アーカイブ

カテゴリー