こちらでサンプル数について指摘をいただいたのでサンプル数によりp値がどのように変わるかをみてみる。
| 1996 | 2012 | |
| 15~19歳 | 9 | 9 |
| 20~24歳 | 12 | 17 |
| 25~29歳 | 10 | 18 |
| 30~34歳 | 9 | 18 |
| 合計 | 40 | 63 |
このデータを x 10, x 100, x1000, x10000で検定してみる。
neet_1 <- matrix(c(9,9,12,17,10,18,9,18),ncol=2, byrow=T)
weight <- c(1, 10, 100, 1000, 10000)
weight
for ( i in weight){
print(paste("======= weight: ", i, "======="))
print(chisq.test(neet_1 * i))
}
結果は以下のようになった。
| 1 | 0.689 |
| 10 | 0.002081 |
| 100 | 2.20E-16 |
| 1000 | 2.20E-16 |
| 10000 | 2.20E-16 |
下記のページにもあるように、サンプルサイズが大きくなると有意になることがわかる。
http://blog.minitab.com/blog/statistics-and-quality-data-analysis/large-samples-too-much-of-a-good-thing
Χ二乗分布についてはこの論文を読んでおくとよいらしい。
http://www.jstor.org/discover/10.2307/3001616?uid=3738328&uid=2129&uid=2&uid=70&uid=4&sid=21103827319951
同じことであるが,p値ではなく,χ二乗値を示すとわかりやすい。
chisq.test では,χ二乗値がサンプルサイズに比例することがわかる。表の全セルをk倍にすれば,χ二乗値もk倍になる。