科学・IＴ・登山の話題

サンプルサイズによる有意の違い

投稿日：2014年6月5日

こちらでサンプル数について指摘をいただいたのでサンプル数によりp値がどのように変わるかをみてみる。

	1996	2012
15～19歳	9	9
20～24歳	12	17
25～29歳	10	18
30～34歳	9	18
合計	40	63

このデータを x 10, x 100, x1000, x10000で検定してみる。

neet_1 <- matrix(c(9,9,12,17,10,18,9,18),ncol=2, byrow=T)
weight <- c(1, 10, 100, 1000, 10000)
weight
for ( i in weight){
  print(paste("======= weight: ", i, "======="))
  print(chisq.test(neet_1 * i))
}

結果は以下のようになった。

1	0.689
10	0.002081
100	2.20E-16
1000	2.20E-16
10000	2.20E-16

下記のページにもあるように、サンプルサイズが大きくなると有意になることがわかる。

http://blog.minitab.com/blog/statistics-and-quality-data-analysis/large-samples-too-much-of-a-good-thing

Χ二乗分布についてはこの論文を読んでおくとよいらしい。

http://www.jstor.org/discover/10.2307/3001616?uid=3738328&uid=2129&uid=2&uid=70&uid=4&sid=21103827319951

Related posts:

主成分分析

統計数字を読み解くセンス

執筆者：admin

foo-bar-baz より:

2014年6月6日 4:50 AM

同じことであるが，p値ではなく，χ二乗値を示すとわかりやすい。
chisq.test では，χ二乗値がサンプルサイズに比例することがわかる。表の全セルをk倍にすれば，χ二乗値もk倍になる。

返信

comment コメントをキャンセル

関連記事

: Rによるやさしい統計学/5-統計的検定-2

練習問題-2 勉強時間と定期試験の点数についてデータを作成する。 study_time <- c(1, 3, 10, 12, 6, 3, 8, 4, 1, 5) point <- c(20 …

: 因子分析

因子分析とは因子分析では複雑な現象を単純な要因で理解するための手法。集められた個別のデータは結果である目的変数とその目的変数の原因である説明変数に分かれる。目的変数を観察できた結果とし、目的変数に影 …

: Rに関するmemo

グループ毎に度数分布を作成する by(housing$VAL, housing$SERIALNO, length) グループで平均値を計算するための式 DT[,mean(pwgtp15),by=SEX …

: 一対比較法によるリーグ戦の分析

一対比較法を利用すると２者の比較から全体の重要度や実力を数字で表現できる。一対比較法を使った分析の手順は以下のようにすすめる。データを取得する。一対比較法のデータは複数の項目から２者を選び比較し …

: 適切な検定方法を考える

統計における検定方法は状況と目的に応じて適切に選ぶ。従属変数の尺度から統計量が決まる。例えば従属変数が名義尺度であればt検定は利用できない。それに対して従属変数が量的変数であればさまざまな検定が可能と …

PREV: Lyncでメニューをカスタマイズする
NEXT: 行動経済学

GIMPでForeground color pickerが正しくない色をピックアップするときの対応方法 2021年9月7日
lerpとslerpの違い 2021年8月5日
シェーダーとは 2021年8月3日
Unityの座標系についてメモ 2021年7月1日
ALLとREMOVEFILTERSの違い 2021年6月28日