言葉の定義
推測統計、推定、点推定、区間推定、検定
標本、標本統計量、推定量、標本抽出、確率変数、確率分布、標本誤差
標本分布、標本統計量、平均、標準偏差、標準誤差
4.5 標本分布
標本平均の標本分布を作成する。平均50, 標準偏差 20である母集団から標本を10個10000回取得し平均を計算し、標本分布を作成する。
sample_mean <- numeric(10000) > for (i in 1:10000){ + sample <- rnorm(n=10, mean=50, sd=20) + sample_mean[i] <- mean(sample) + } > hist(sample_mean) > hist(sample_mean, breaks=100)
標本分布の平均および標準偏差(標準誤差)について調べる。
> mean(sample_mean) [1] 49.96364 + > var(sample_mean) [1] 41.60138 > sd(sample_mean) [1] 6.449913
予測される分散は 20^2/10 = 40であることからかなり近い数値が出ている。
理論上の標本分布と比較をしてみる。
> hist(sample_mean, breaks=100, freq=FALSE) > curve(dnorm(x, mean=50, sd=sqrt(40)), add=TRUE)
練習問題
1
> aaa.sv <- numeric(length=5000) > aaa.usv <- numeric(length=5000) > for (i in 1:5000){ + w_v <- rnorm(n=20, mean=50, sd=10) + aaa.sv[i] <- mean((w_v - mean(w_v))^2) + aaa.usv[i] <- var(w_v) + }
それぞれの分散について平均を見ると
> mean(aaa.sv) [1] 95.10715 > mean(aaa.usv) [1] 100.1128
不偏分散のほうが母分散に近くなっていることがわかる。
次に分散を見てみる。
> sd(aaa.sv) [1] 30.45344 > sd(aaa.usv) [1] 32.05625
不偏分散では標準誤差が大きいことがわかるので推定値のばらつきが大きい。ただし標本分散は不変ではないので母分散の推定に使えるわけではない。
それぞれの分散についてヒストグラムを描いてみる。
> par(mfrow=c(1,2)) > hist(aaa.sv, breaks=seq(0,500,10)) > hist(aaa.usv, breaks=seq(0,500,10))
平均について同じように計算をする
> sample_mean <- numeric(length=5000) > for (i in 1:5000){ + sample_w <- rnorm(n=20, mean=50, sd=10) + sample_mean[i] <- mean(sample_w) + } > mean(sample_mean) [1] 50.01909 > sd(sample_mean) [1] 2.207616 > hist(sample_mean, breaks=seq(40, 60, 0.5), freq=FALSE) > curve(dnorm(x, mean=50, sd=sqrt(100/20)), add=TRUE)
2
curve(dnorm(x, mean=0, sd=sqrt(1/25)), from=-1, to =1) sample_size <- c(1,4,9,16) for (i in sample_size){ curve(dnorm(x, mean=0, sd=sqrt(1/i)), add=TRUE) }
サンプル数が少ないほど分散が広い=標準誤差が大きいために不偏推定量としては適切とは言えない。サンプル数が大きくなると標準誤差が小さくなってくる。サンプル数25なら母平均を推定するための不偏推定量として標本平均を利用できる。