科学の箱

科学・IT・登山の話題

機械学習 統計

データ分析について評価する

投稿日:2014年3月18日 更新日:

デザイン

  • コントロールグループはあるか

モデル

  • 検定の前提は満たしているか(正規分布)
  • 従属変数の尺度は適切か(名義、順序、間隔、比率)
  • 独立変数の数は適切か
  • モデルについて説明できるか(独立変数の数・種類・条件、従属変数の種類・尺度、統計量、対応あるなし、サンプルサイズ、サンプルの取得方法)

サンプル

  • サンプルサイズは適正であるか。
  • サンプルサイズが得られない時には、Powerを利用するか
  • 研究で求められている精度は得られているか
    • おもにサンプルサイズで決まる
  • サンプルの取り方は適切か
    • 無作為になっているか
    • コントロールされたブロック化になっているか
  • サンプルサイズにあった検定方法をつかっているか
  • 得られたサンプルの統計量に大きな偏りはないか
  • サンプルに外れ値はないか→中央値を使うこと
  • 外れ値の評価および取り扱い方法は正しいか

1つの変数

  • 適切な代表値を選んでいるか
    • 平均(算術平均、中央値)
    • 分布(クォンタイル、分散、レンジ)
  • 適切な分布を選んでいるか

2つの変数の比較

  • 相関はみせかけではないか
  • 層別は必要か

2つの量的変数

  • 回帰分析を参照

2つの質的変数

  • クロス集計
  • 相関係数、連関係数
  • Χ検定とフィッシャーの検定のどちらが適切であるか
  • 数量化理論II類

独立変数が量的変数、従属変数が質的変数

  • 判別式とロジスティック分析の選択

独立変数が質的変数、従属変数が量的変数

  • 数量化理論I類

回帰分析

  • 回帰分析の前提を満たしているか
    • varianceは等しい
    • 線形
    • はずれ値がない
  • 見せかけの回帰ではないか
  • 第三の要因がないか
  • 交絡要因は考慮されているか
  • right skewnessであればlogをとること
  • 外れ値は適切に処理されているか
    • 外れ値を取り除くと結果にどのような影響が出るか
    • 対数化で正規化できないか
    • robust methodを採用する
  • 線形回帰に無理に当てはめていないか
  • Varianceが独立変数の値に従って変化している
  • 独立変数が多すぎる
  • 因果関係をあてはめていないか

検定

  • 有意さが出たとしても実際の差があるとはかぎらない
    • サンプル数が多すぎないか
  • 有意さが出ないとしても差がないとは限らない
    • サンプル数が少なすぎないか
  • 検定方法を恣意的にえらんでいないか
  • 従属変数の尺度に合わせた適切な検定方法を選んでいるか

解釈

  • 集団に対する評価を個体に割り振っていないか

メタ情報

inarticle



メタ情報

inarticle



-機械学習, 統計
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

dataanalysis-002-week2

Structure of Data Analysis 質問を定義する 理想的なデータセットの定義 アクセスできるデータの検索 データの取得 クレンジング Exploratory 統計的予測・モデリング …

no image

pythonのデータ分析ライブラリで遊んでみる。

こちらを参考にしてPythonのデータ分析用のライブラリをそろえてみた。 まずはお手軽にヒストグラムを書いてみる。コマンドラインからipythonを立ち上げる。 ipython –pylab &#8 …

no image

Pythonではじめる機械学習 – Chap03

3.1 Types of Unsupervised Learning 教師なし学習の例 次元削減: 重要な特徴量のみを使って元のデータを表現する トピック抽出: データを構成する部品を見つける クラス …

no image

Pythonではじめる機械学習 – k-Means

k-Meansの概要 k-Meansは教師なし学習の一つであり、あらかじめ指定された数にグループを分ける。 例えば今身長である程度まとまって席に座っている生徒を考えます。k-Meansでは最初に分ける …

no image

分散分析のcase study-2

分散分析のcase study-1からの続き。 さて前回まででとりあえずデータの簡単な分析を終えて、以下のような結論を得た。 図1よりR1とR2を比較するとスピードはR1のほうが常に上である。またS1 …

2014年3月
« 2月   4月 »
 12
3456789
10111213141516
17181920212223
24252627282930
31  

side bar top



アーカイブ

カテゴリー