科学の箱

科学・IT・登山の話題

機械学習 統計

データ分析について評価する

投稿日:2014年3月18日 更新日:

デザイン

  • コントロールグループはあるか

モデル

  • 検定の前提は満たしているか(正規分布)
  • 従属変数の尺度は適切か(名義、順序、間隔、比率)
  • 独立変数の数は適切か
  • モデルについて説明できるか(独立変数の数・種類・条件、従属変数の種類・尺度、統計量、対応あるなし、サンプルサイズ、サンプルの取得方法)

サンプル

  • サンプルサイズは適正であるか。
  • サンプルサイズが得られない時には、Powerを利用するか
  • 研究で求められている精度は得られているか
    • おもにサンプルサイズで決まる
  • サンプルの取り方は適切か
    • 無作為になっているか
    • コントロールされたブロック化になっているか
  • サンプルサイズにあった検定方法をつかっているか
  • 得られたサンプルの統計量に大きな偏りはないか
  • サンプルに外れ値はないか→中央値を使うこと
  • 外れ値の評価および取り扱い方法は正しいか

1つの変数

  • 適切な代表値を選んでいるか
    • 平均(算術平均、中央値)
    • 分布(クォンタイル、分散、レンジ)
  • 適切な分布を選んでいるか

2つの変数の比較

  • 相関はみせかけではないか
  • 層別は必要か

2つの量的変数

  • 回帰分析を参照

2つの質的変数

  • クロス集計
  • 相関係数、連関係数
  • Χ検定とフィッシャーの検定のどちらが適切であるか
  • 数量化理論II類

独立変数が量的変数、従属変数が質的変数

  • 判別式とロジスティック分析の選択

独立変数が質的変数、従属変数が量的変数

  • 数量化理論I類

回帰分析

  • 回帰分析の前提を満たしているか
    • varianceは等しい
    • 線形
    • はずれ値がない
  • 見せかけの回帰ではないか
  • 第三の要因がないか
  • 交絡要因は考慮されているか
  • right skewnessであればlogをとること
  • 外れ値は適切に処理されているか
    • 外れ値を取り除くと結果にどのような影響が出るか
    • 対数化で正規化できないか
    • robust methodを採用する
  • 線形回帰に無理に当てはめていないか
  • Varianceが独立変数の値に従って変化している
  • 独立変数が多すぎる
  • 因果関係をあてはめていないか

検定

  • 有意さが出たとしても実際の差があるとはかぎらない
    • サンプル数が多すぎないか
  • 有意さが出ないとしても差がないとは限らない
    • サンプル数が少なすぎないか
  • 検定方法を恣意的にえらんでいないか
  • 従属変数の尺度に合わせた適切な検定方法を選んでいるか

解釈

  • 集団に対する評価を個体に割り振っていないか

メタ情報

inarticle



メタ情報

inarticle



-機械学習, 統計
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

dataanalysis-002-week1

Rstudioを開発に使う 開発が用意 Forumがある 標準 フリー Help R Mailling list Stackoverflow CrossValidated R-Help ?rnorm …

no image

irisを教師なし学習で分類ーGMM

これまでは正解ラベルがある前提、つまり教師あり学習でモデルを構築した。今回は正解ラベルがない前提でモデルを構築する。 教師なし学習としては混合ガウスモデルを利用する。 内容 データの読み込み、前処理 …

no image

Mahout環境構築

Mahoutのシステム要件を確認する。 Java 1.6.x or greater. Maven 3.x to build the source code. CPU, Disk and Memory …

no image

統計数字を読み解くセンス

統計数字を読み解くセンス 当確はなぜすぐにわかるのか? データ分布に現れる法則 ベンフォードの法則 ジップの法則 パレートの法則 ローレンツ曲線とジニ計数 偏差値 異なった観察対象に対する評価を平均値 …

no image

research pipeline

Related posts:数値項目の分析テンプレートAWStatで基本指標を読むPythonではじめる機械学習 – k-Means

2014年3月
« 2月   4月 »
 12
3456789
10111213141516
17181920212223
24252627282930
31  

side bar top



アーカイブ

カテゴリー