科学の箱

科学・IT・登山の話題

R

Rによるやさしい統計学/4-母集団と標本

投稿日:2014年1月14日 更新日:

言葉の定義

推測統計、推定、点推定、区間推定、検定

標本、標本統計量、推定量、標本抽出、確率変数、確率分布、標本誤差

標本分布、標本統計量、平均、標準偏差、標準誤差

4.5 標本分布

標本平均の標本分布を作成する。平均50, 標準偏差 20である母集団から標本を10個10000回取得し平均を計算し、標本分布を作成する。

sample_mean <- numeric(10000)
> for (i in 1:10000){
+ sample <- rnorm(n=10, mean=50, sd=20)
+ sample_mean[i] <- mean(sample)
+ }
> hist(sample_mean)
> hist(sample_mean, breaks=100)

Image 10

標本分布の平均および標準偏差(標準誤差)について調べる。

> mean(sample_mean)
[1] 49.96364
+ > var(sample_mean)
[1] 41.60138
> sd(sample_mean)
[1] 6.449913

予測される分散は 20^2/10 = 40であることからかなり近い数値が出ている。

理論上の標本分布と比較をしてみる。

> hist(sample_mean, breaks=100, freq=FALSE)
> curve(dnorm(x, mean=50, sd=sqrt(40)), add=TRUE)

Image 11

練習問題

1

> aaa.sv <- numeric(length=5000)
> aaa.usv <- numeric(length=5000)
> for (i in 1:5000){
+ w_v <- rnorm(n=20, mean=50, sd=10)
+ aaa.sv[i] <- mean((w_v - mean(w_v))^2)
+ aaa.usv[i] <- var(w_v)
+ }

それぞれの分散について平均を見ると

> mean(aaa.sv)
[1] 95.10715
> mean(aaa.usv)
[1] 100.1128

不偏分散のほうが母分散に近くなっていることがわかる。

次に分散を見てみる。

> sd(aaa.sv)
[1] 30.45344
> sd(aaa.usv)
[1] 32.05625

不偏分散では標準誤差が大きいことがわかるので推定値のばらつきが大きい。ただし標本分散は不変ではないので母分散の推定に使えるわけではない。

それぞれの分散についてヒストグラムを描いてみる。

> par(mfrow=c(1,2))
> hist(aaa.sv, breaks=seq(0,500,10))
> hist(aaa.usv, breaks=seq(0,500,10))

var_hist

平均について同じように計算をする

> sample_mean <- numeric(length=5000)
> for (i in 1:5000){
+   sample_w <- rnorm(n=20, mean=50, sd=10)
+   sample_mean[i] <- mean(sample_w)
+ }
> mean(sample_mean)
[1] 50.01909
> sd(sample_mean)
[1] 2.207616

> hist(sample_mean, breaks=seq(40, 60, 0.5), freq=FALSE)
> curve(dnorm(x, mean=50, sd=sqrt(100/20)), add=TRUE)

sample_mean

2

curve(dnorm(x, mean=0, sd=sqrt(1/25)), from=-1, to =1)
sample_size <- c(1,4,9,16)
for (i in sample_size){
 curve(dnorm(x, mean=0, sd=sqrt(1/i)), add=TRUE)
}

sample

サンプル数が少ないほど分散が広い=標準誤差が大きいために不偏推定量としては適切とは言えない。サンプル数が大きくなると標準誤差が小さくなってくる。サンプル数25なら母平均を推定するための不偏推定量として標本平均を利用できる。

メタ情報

inarticle



メタ情報

inarticle



-R

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Rでのラインの表示

Rでラインを引くために関数がいくつか用意されている。 abline() 画像全体に線を引く segments() 始点と終点を指定してその間に線を引く points() “点” …

no image

ジニ係数

計量経済学の本を読んでいたら、ジニ係数の利用について記述されていたのでRで実データを使って計算してみる。 経済学の勉強でジニ係数というのは知っていたが、その利用方法としては所得の分配がどの程度平等であ …

no image

factorと数値型の変換

ジニ係数にファクターと数値変換についてコメントをいただいたので調べてみた。 その結果以下の3つのことがわかった。 read.csvで桁区切り文字つきの値を読み込むとfactorになる。 区切り文字つき …

no image

Rによるやさしい統計学/5-統計的検定-2

練習問題-2 勉強時間と定期試験の点数についてデータを作成する。 study_time <- c(1, 3, 10, 12, 6, 3, 8, 4, 1, 5) point <- c(20 …

no image

Rによるやさしい統計学/6-2つの平均値を比較する

(1) 統計が好きか嫌いかで統計テスト1の得点について有意な差はあるか。 指導法データは score.csvに作成する。 ID,名前,性別,数学,統計,心理学テスト,統計テスト1,統計テスト2,指導法 …

2014年1月
« 12月   2月 »
 12345
6789101112
13141516171819
20212223242526
2728293031  

side bar top



アーカイブ

カテゴリー