科学の箱

科学・IT・登山の話題

機械学習 統計

データ分析について評価する

投稿日:2014年3月18日 更新日:

デザイン

  • コントロールグループはあるか

モデル

  • 検定の前提は満たしているか(正規分布)
  • 従属変数の尺度は適切か(名義、順序、間隔、比率)
  • 独立変数の数は適切か
  • モデルについて説明できるか(独立変数の数・種類・条件、従属変数の種類・尺度、統計量、対応あるなし、サンプルサイズ、サンプルの取得方法)

サンプル

  • サンプルサイズは適正であるか。
  • サンプルサイズが得られない時には、Powerを利用するか
  • 研究で求められている精度は得られているか
    • おもにサンプルサイズで決まる
  • サンプルの取り方は適切か
    • 無作為になっているか
    • コントロールされたブロック化になっているか
  • サンプルサイズにあった検定方法をつかっているか
  • 得られたサンプルの統計量に大きな偏りはないか
  • サンプルに外れ値はないか→中央値を使うこと
  • 外れ値の評価および取り扱い方法は正しいか

1つの変数

  • 適切な代表値を選んでいるか
    • 平均(算術平均、中央値)
    • 分布(クォンタイル、分散、レンジ)
  • 適切な分布を選んでいるか

2つの変数の比較

  • 相関はみせかけではないか
  • 層別は必要か

2つの量的変数

  • 回帰分析を参照

2つの質的変数

  • クロス集計
  • 相関係数、連関係数
  • Χ検定とフィッシャーの検定のどちらが適切であるか
  • 数量化理論II類

独立変数が量的変数、従属変数が質的変数

  • 判別式とロジスティック分析の選択

独立変数が質的変数、従属変数が量的変数

  • 数量化理論I類

回帰分析

  • 回帰分析の前提を満たしているか
    • varianceは等しい
    • 線形
    • はずれ値がない
  • 見せかけの回帰ではないか
  • 第三の要因がないか
  • 交絡要因は考慮されているか
  • right skewnessであればlogをとること
  • 外れ値は適切に処理されているか
    • 外れ値を取り除くと結果にどのような影響が出るか
    • 対数化で正規化できないか
    • robust methodを採用する
  • 線形回帰に無理に当てはめていないか
  • Varianceが独立変数の値に従って変化している
  • 独立変数が多すぎる
  • 因果関係をあてはめていないか

検定

  • 有意さが出たとしても実際の差があるとはかぎらない
    • サンプル数が多すぎないか
  • 有意さが出ないとしても差がないとは限らない
    • サンプル数が少なすぎないか
  • 検定方法を恣意的にえらんでいないか
  • 従属変数の尺度に合わせた適切な検定方法を選んでいるか

解釈

  • 集団に対する評価を個体に割り振っていないか

メタ情報

inarticle



メタ情報

inarticle



-機械学習, 統計
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

make_blobsで分類データを作成する

sklearnで分類学習モデルを構築する際にテストデータが必要になる。手で作成したりあらかじめ用意されたデータを使うこともできるが、make_blobsを使ってランダムデータを作成できる。 sklea …

no image

dataanalysis-002-week1

Rstudioを開発に使う 開発が用意 Forumがある 標準 フリー Help R Mailling list Stackoverflow CrossValidated R-Help ?rnorm …

no image

独立性の検定 2つ

ニートの年齢別割合が1996年と2012年で関連性があるか独立性の検定をしてみる。 ニートの割合  1996 2012 15~19歳 9 9 20~24歳 12 17 25~29歳 10 18 30~ …

no image

前向き研究と後ろ向き研究

前向き研究と後ろ向き研究は疫学における用語である。 前向き研究で使われる研究手法にはコホートや無作為比較対照研究、ロジスティック分析がある。これらの研究ではサンプルをリスクファクター(危険要因)のある …

no image

dataanalysis-002-week2

Structure of Data Analysis 質問を定義する 理想的なデータセットの定義 アクセスできるデータの検索 データの取得 クレンジング Exploratory 統計的予測・モデリング …

2014年3月
« 2月   4月 »
 12
3456789
10111213141516
17181920212223
24252627282930
31  

side bar top



アーカイブ

カテゴリー