科学の箱

科学・IT・登山の話題

機械学習 統計

データ分析について評価する

投稿日:2014年3月18日 更新日:

デザイン

  • コントロールグループはあるか

モデル

  • 検定の前提は満たしているか(正規分布)
  • 従属変数の尺度は適切か(名義、順序、間隔、比率)
  • 独立変数の数は適切か
  • モデルについて説明できるか(独立変数の数・種類・条件、従属変数の種類・尺度、統計量、対応あるなし、サンプルサイズ、サンプルの取得方法)

サンプル

  • サンプルサイズは適正であるか。
  • サンプルサイズが得られない時には、Powerを利用するか
  • 研究で求められている精度は得られているか
    • おもにサンプルサイズで決まる
  • サンプルの取り方は適切か
    • 無作為になっているか
    • コントロールされたブロック化になっているか
  • サンプルサイズにあった検定方法をつかっているか
  • 得られたサンプルの統計量に大きな偏りはないか
  • サンプルに外れ値はないか→中央値を使うこと
  • 外れ値の評価および取り扱い方法は正しいか

1つの変数

  • 適切な代表値を選んでいるか
    • 平均(算術平均、中央値)
    • 分布(クォンタイル、分散、レンジ)
  • 適切な分布を選んでいるか

2つの変数の比較

  • 相関はみせかけではないか
  • 層別は必要か

2つの量的変数

  • 回帰分析を参照

2つの質的変数

  • クロス集計
  • 相関係数、連関係数
  • Χ検定とフィッシャーの検定のどちらが適切であるか
  • 数量化理論II類

独立変数が量的変数、従属変数が質的変数

  • 判別式とロジスティック分析の選択

独立変数が質的変数、従属変数が量的変数

  • 数量化理論I類

回帰分析

  • 回帰分析の前提を満たしているか
    • varianceは等しい
    • 線形
    • はずれ値がない
  • 見せかけの回帰ではないか
  • 第三の要因がないか
  • 交絡要因は考慮されているか
  • right skewnessであればlogをとること
  • 外れ値は適切に処理されているか
    • 外れ値を取り除くと結果にどのような影響が出るか
    • 対数化で正規化できないか
    • robust methodを採用する
  • 線形回帰に無理に当てはめていないか
  • Varianceが独立変数の値に従って変化している
  • 独立変数が多すぎる
  • 因果関係をあてはめていないか

検定

  • 有意さが出たとしても実際の差があるとはかぎらない
    • サンプル数が多すぎないか
  • 有意さが出ないとしても差がないとは限らない
    • サンプル数が少なすぎないか
  • 検定方法を恣意的にえらんでいないか
  • 従属変数の尺度に合わせた適切な検定方法を選んでいるか

解釈

  • 集団に対する評価を個体に割り振っていないか

メタ情報

inarticle



メタ情報

inarticle



-機械学習, 統計
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

AWStatで基本指標を読む

ウェッブサイトの分析でまず見るべきことは月ごとのトレンドである。確認すべき指標はPV, 訪問数、UUdとなる。 AWStatではこれらの項目はWhen -> Month Historyで棒グラフ …

no image

線形回帰とリッジ回帰とラッソ回帰の違い

用語 線形回帰 データから平均二乗誤差を最低にするパラメータΘを求めて、直線で回帰すること $$ y = Θ_0 + Θ_1 \times x $$ コスト関数 損失関数とも呼ばれる。実際のデータと予 …

no image

Mahout環境構築

Mahoutのシステム要件を確認する。 Java 1.6.x or greater. Maven 3.x to build the source code. CPU, Disk and Memory …

no image

dataanalysis-002-week5

ANOVA – quantitative 分散分析、数学的に分散分析と重回帰分析は同じ 分散分析では3群以上の平均の差異を検定する ただし非線形では異なる http://oshiete.g …

no image

線形解析の基本手順

線形解析の基本手順 データの読み込み データフォーマット確認 EDA データクレンジング トレーニングデータ構築 モデル構築 モデル評価 予想 メトリック Related posts:dataanal …

2014年3月
« 2月   4月 »
 12
3456789
10111213141516
17181920212223
24252627282930
31  

side bar top



アーカイブ

カテゴリー