統計数字を読み解くセンス 当確はなぜすぐにわかるのか?
データ分布に現れる法則
- ベンフォードの法則
- ジップの法則
- パレートの法則
- ローレンツ曲線とジニ計数
偏差値
- 異なった観察対象に対する評価を平均値からの距離で評価する。
- 平均値からの距離を偏差値とよぶ。
- 得点を平均値0および標準偏差1になるように変換した得点を標準化得点と呼ぶ
シンプソンのパラドックス
- データの個数を常に意識して統計数字を解釈すること
データの分布に従って利用できる相関モデルが異なる。
- ピアソンの積率相関
- スピアマンの順位相関
- 曲線相関
- 重相関
相関を理解するときには相関係数と散布図を用いる。データをひとつの数字で記述できる相関係数は便利な反面、情報が削られている。散布図は人により解釈が異なる可能性があるが、相関係数からは見えない情報を得ることができる。
近似的な相関係数のチェック
- データ数 x R^2 ( 1 – R^2) >=4
因果関係のお約束-1
- 時間
- 相関
- 擬似相関なし
因果関係のお約束-2
- http://profiles.nlm.nih.gov/NN/B/B/M/Q/
- http://ocw.jhsph.edu/courses/fundepiii/PDFs/Lecture19.pdf
因果関係の調査方法
- 後ろ向き調査
- 前向き調査
因果関係を調べるときのポイント
- 調査対象の人数を意識する
- クロス集計表の4つのフィールドについて観測できているかを確認する 例)なまずと雨
因果関係の評価
- RR
- Odds比 (近似)
RRは前提条件がいろいろあるのでゆるいOdds比を使うことができる。
見かけの相関について評価する
- 偏相関係数を計算してあげて相関が対象となる変数についての相関の強さを明らかにする。
統計量の大きさとサンプルサイズ
- 統計量が大きいとP値は小さくなる
- サンプルサイズが大きいとP値は小さくなる
もっともらしい結論の評価
- 星座と交通事故
- サッカー選手の生まれ月
- 血液型と性格
全数調査のデメリット
- コスト
- 時間
- 非標本誤差
- 調査による影響
推定
- ユニバース、母集団、標本の定義
- データ集め
- 標本は母集団を代表しているか (あらかじめデザインしたとおりにデータが集まらなかった場合には偏りが出る可能性がある)。
- 得られた値の確からしさ(標本誤差、信頼区間)
回帰
統計と安全