本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計
1: 変数
尺度の種類
名義尺度 — 配列できる –> 順序尺度 — 数値化できる –> 間隔尺度 — 0がある –> 比率尺度
実際の統計的検定では尺度を適切に落として測定することが重要
信頼と安定
信頼: 無作為に測定結果に誤差が出る
安定:
内面変数1 —-
|—> 測定変数
内面変数2 —-
1と測定変数には強い相関があるが、2とは相関がないために測定変数が安定している
1と2の間に相関がない
2: ひとつの変数について分析する
分析手順
– 度数分布 -> 数値要約
度数分布
– データを直感で捉える
– 次の分析の手がかりとする
– 欠損値の処理およびデータのクレンジング
度数分布で概観を捉えてから数値要約をすること、先に数値要約をしてしまうとデータの全体像にバイアスをもってデータ分析を進めてしまうことになる。
3: 2つの変数
分析手順
– 散布図
– 相関係数による数値要約
– 層別による代表値
– 分散分析
相関係数の考え方
r=cosθ XとYが無相関 = XとYが直交している
/ Xのベクトル
/
/
/) θ
―――― Yのベクトル
相関係数のポイント
1) 無相関である -> R=0であるがR=0であっても無相関であるとはかぎらない。Rは線形回帰のみに対応している
2) はずれ値がある -> 順位相関の利用
3) 分割相関
4) 切断効果
相関関係の分析-1
X <=============> Y
価格 日本酒の評価
| |
| |
| |
| |
——— Z ———-
コスト
– XとYに相関あり
– X -> Yを証明するには
– Xの情報を与えるとYが高くなる かつ
– XヶなければYは同じ日本酒についてランダムに評価が変わる
– Zは疑似相関
相関関係の分析-2
X <==(2<-)=========(->1)==> Y
教師の微笑み 児童の好意度
| |
| |
————– Z ————-
1) 教師の微笑が多いと児童の好意度がアップする
2) 好意を持っている児童が多いと微笑が多いと感じる
微笑があるというのは児童の主観(気づきと感じる)
3) 教室の物理特性(快適さ)
3) 教師の内面的特性による
例) 子供が好きだから微笑が多くなるし、子供好きであることを感じて児童の好意度もアップする
相関関係の分析-3
X <==(2<-)=========(->1)==> Y
声の大きさ 私語
| |
| |
————– Z ————-
声大きい -> 気づかれない -> 私語多い
声小さい -> 気づかれる -> 私語少ない
声小さい -> 聞き取れない -> 私語少ない
私語多い -> 聞き取れない -> 声大きい
Z: 周りの騒音など
因果関係の証明は分析ではなく情報収集の段階で決まる。
相関関係の分析-4
X: 塾へ行く回数
Y: 反抗度合い
Z:
X->Y:
塾と比べると学校の授業のレベルが低い
教師の先入観
授業がおもしろくない
学歴偏重の結果、先生を見下す
Y->X:
学校の授業についていけないので塾で補習をする
Z: 先生の授業が下手
因果関係の証明は分析ではなく情報収集の段階で決まる。
4: 2つの質的変数の関連
2つ以上の質的変数を分析する手順
– クロス集計表の作成
– 連関係数の算出
– 結論
連関係数の種類
– 2×2の連関係数 φ
– nxlの連関係数 クラメールの連関係数
質的変数から因果関係について考える
例) カエルがなく <-> 雨が降る
質的変数で関連付けてみると
変数1) カエルがなく (0 or 1)
変数2) 雨が降る (0 or 1)
この2つの変数は相関もあり、時系列も合う。しかし因果関係がないことは常識ではっきりわかっている。
? では因果関係をどうやって証明すればよいのか。
変数の型による分析方法
– 質 <-> 質 クロス集計
– 質 -> 量 棒グラフ、平均およびSDをとってきて比較
– 量 -> 質 例)大学の成績と卒業後の進路 量で層別して質でカウントする
5: 変数の変換
変換方式
– 線形
– 非線形
– ルート low right skewness
– log high right skewness
– 逆数
6: 統計的検出
母集団 ————(無作為抽出による最適なサンプル数の選択) —> サンプル
| | |
| ○ <-> ○ | |
| 検定 | <—————–推定 ————————
| |
|—————-
検定の手順
– 帰無仮説
– 有意水準
– サンプル数の計算
– 統計量の選択
– サンプリング
– 統計量の計算
– 分布からpを計算
– 検定
– 分析
無作為抽出に発生しうる偏り
1) 推測する母集団の特性
2) 考えられる偏り (場所、時間、年齢、特性)
3) 予測される推測に出てくるゆがみ
7: 適切な検定の選択
影響を検定するテンプレート
– XのYに及ぼす影響
テーマ: 騒音の作業効率におよぼす影響
変数 :
– X(量): 騒音, 単位ホーン, 騒音測定器により測定する。
– Y(量): 作業効率, 同じ作業、同じ時間単位での処理数
– Y(質): 作業の質, 同じ作業, 同じ時間単位で作業の質をチェックリストにより計算、点数を層別にして3つのレベルに分ける。
予測 : 騒音が高いほど作業効率が低くなることが予測される。
剰余変数 : 温度、個体差(手先の器用さ)、学習
| タイプ | 独立変数 | 従属変数 | メモ |
| 実験室 | 操作 | 測定 | 因果関係を明らかにすることができる、不自然な環境、交絡作用の除外 |
| 相関 | 測定 | 測定 | 自然 |
7-1:検定するときに注意を払うポイント
– 変数の種類
– 被験者間・内要因
– 無作為とブロック化の違い
被験者間要因 – 特定要因のみに参加, 特定の条件(騒音), 個人変数
被験者ない要因 – すべての要因に参加, すべての騒音, コホートの年齢別
7-2:変数について考える
従属変数
– 尺度
– 統計量
独立変数
– 要因数
– 要因内条件数
– 対応
8:適切な検定方法の選択
尺度水準 – 数値をとるのが問題ならば水準を落として検定を実施する
統計量の選択
質->頻度, 量->平均(分布がゆがんでいたら中央値)、分散
2つの変数の関連 相関係数と連関係数
要因数0のパターン
母集団の推定および比較