科学の箱

科学・IT・登山の話題

R 統計

サンプルサイズによる有意の違い

投稿日:

こちらでサンプル数について指摘をいただいたのでサンプル数によりp値がどのように変わるかをみてみる。

 1996 2012
15~19歳 9 9
20~24歳 12 17
25~29歳 10 18
30~34歳 9 18
合計 40 63

このデータを x 10, x 100, x1000, x10000で検定してみる。

neet_1 <- matrix(c(9,9,12,17,10,18,9,18),ncol=2, byrow=T)
weight <- c(1, 10, 100, 1000, 10000)
weight
for ( i in weight){
  print(paste("======= weight: ", i, "======="))
  print(chisq.test(neet_1 * i))
}

結果は以下のようになった。

1 0.689
10 0.002081
100 2.20E-16
1000 2.20E-16
10000 2.20E-16

下記のページにもあるように、サンプルサイズが大きくなると有意になることがわかる。

http://blog.minitab.com/blog/statistics-and-quality-data-analysis/large-samples-too-much-of-a-good-thing

Χ二乗分布についてはこの論文を読んでおくとよいらしい。

http://www.jstor.org/discover/10.2307/3001616?uid=3738328&uid=2129&uid=2&uid=70&uid=4&sid=21103827319951

メタ情報

inarticle



メタ情報

inarticle



-R, 統計
-

執筆者:


  1. foo-bar-baz より:

    同じことであるが,p値ではなく,χ二乗値を示すとわかりやすい。
    chisq.test では,χ二乗値がサンプルサイズに比例することがわかる。表の全セルをk倍にすれば,χ二乗値もk倍になる。

comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Rで日付データをhistgramで表示するときのポイント

Rでヒストグラムはhist()関数を使って描画する。この時与えるデータによりブレーク引数が異なることがわかった。 まず下記がデフォルトのhist()関数のヘルプである。 hist(x, breaks …

no image

因子分析

因子分析とは 因子分析では複雑な現象を単純な要因で理解するための手法。集められた個別のデータは結果である目的変数とその目的変数の原因である説明変数に分かれる。目的変数を観察できた結果とし、目的変数に影 …

no image

仕事で使える統計解析

説明変数と目的変数の関係を求める 変数の関係を定量的に明らかにするとき説明変数と目的変数が定量・定性かによって選択できる統計手法が異なる。 統計手法 – 目的変数 – 説明変数 重回帰分析 – 定量 …

no image

クラスタリング

Rによるクラスタ分析の実行 県別の持家率と自家用車普及率からクラスタ分析を実行し似た県を探してみる。。 データソース 持家と自家用車普及率のデータは下記から取得する 持家普及率のデータはこちらから取得 …

no image

SVD

主成分分析はSVD(特異値分解)の特別なケースらしい。統計の本を見るといろいろと使い方を説明しているが、それをRでどのように実装するかとなると正直よくわかっていない。svd()を利用するのだが、統計の …

2014年6月
« 5月   7月 »
 1
2345678
9101112131415
16171819202122
23242526272829
30  

side bar top



アーカイブ

カテゴリー