科学の箱

科学・IT・登山の話題

R

Rによるやさしい統計学/4-母集団と標本

投稿日:2014年1月14日 更新日:

言葉の定義

推測統計、推定、点推定、区間推定、検定

標本、標本統計量、推定量、標本抽出、確率変数、確率分布、標本誤差

標本分布、標本統計量、平均、標準偏差、標準誤差

4.5 標本分布

標本平均の標本分布を作成する。平均50, 標準偏差 20である母集団から標本を10個10000回取得し平均を計算し、標本分布を作成する。

sample_mean <- numeric(10000)
> for (i in 1:10000){
+ sample <- rnorm(n=10, mean=50, sd=20)
+ sample_mean[i] <- mean(sample)
+ }
> hist(sample_mean)
> hist(sample_mean, breaks=100)

Image 10

標本分布の平均および標準偏差(標準誤差)について調べる。

> mean(sample_mean)
[1] 49.96364
+ > var(sample_mean)
[1] 41.60138
> sd(sample_mean)
[1] 6.449913

予測される分散は 20^2/10 = 40であることからかなり近い数値が出ている。

理論上の標本分布と比較をしてみる。

> hist(sample_mean, breaks=100, freq=FALSE)
> curve(dnorm(x, mean=50, sd=sqrt(40)), add=TRUE)

Image 11

練習問題

1

> aaa.sv <- numeric(length=5000)
> aaa.usv <- numeric(length=5000)
> for (i in 1:5000){
+ w_v <- rnorm(n=20, mean=50, sd=10)
+ aaa.sv[i] <- mean((w_v - mean(w_v))^2)
+ aaa.usv[i] <- var(w_v)
+ }

それぞれの分散について平均を見ると

> mean(aaa.sv)
[1] 95.10715
> mean(aaa.usv)
[1] 100.1128

不偏分散のほうが母分散に近くなっていることがわかる。

次に分散を見てみる。

> sd(aaa.sv)
[1] 30.45344
> sd(aaa.usv)
[1] 32.05625

不偏分散では標準誤差が大きいことがわかるので推定値のばらつきが大きい。ただし標本分散は不変ではないので母分散の推定に使えるわけではない。

それぞれの分散についてヒストグラムを描いてみる。

> par(mfrow=c(1,2))
> hist(aaa.sv, breaks=seq(0,500,10))
> hist(aaa.usv, breaks=seq(0,500,10))

var_hist

平均について同じように計算をする

> sample_mean <- numeric(length=5000)
> for (i in 1:5000){
+   sample_w <- rnorm(n=20, mean=50, sd=10)
+   sample_mean[i] <- mean(sample_w)
+ }
> mean(sample_mean)
[1] 50.01909
> sd(sample_mean)
[1] 2.207616

> hist(sample_mean, breaks=seq(40, 60, 0.5), freq=FALSE)
> curve(dnorm(x, mean=50, sd=sqrt(100/20)), add=TRUE)

sample_mean

2

curve(dnorm(x, mean=0, sd=sqrt(1/25)), from=-1, to =1)
sample_size <- c(1,4,9,16)
for (i in sample_size){
 curve(dnorm(x, mean=0, sd=sqrt(1/i)), add=TRUE)
}

sample

サンプル数が少ないほど分散が広い=標準誤差が大きいために不偏推定量としては適切とは言えない。サンプル数が大きくなると標準誤差が小さくなってくる。サンプル数25なら母平均を推定するための不偏推定量として標本平均を利用できる。

メタ情報

inarticle



メタ情報

inarticle



-R

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

factorと数値型の変換

ジニ係数にファクターと数値変換についてコメントをいただいたので調べてみた。 その結果以下の3つのことがわかった。 read.csvで桁区切り文字つきの値を読み込むとfactorになる。 区切り文字つき …

no image

データの縦・横展開

stack()関数を用いて横長のデータを縦長にできることを教わった。このようなデータ形式の変換はよくあることなのでもう少し調べてみた。 scoreデータは以下のような形式となっている。 > he …

no image

Wilcoxonの符号付順位決定

boneのspnbmdを使って年齢別に男女差があるかを確認してみる。検定ではWilcoxonの符号付順位決定を利用する。 boneは特定個人について骨密度を計測している。データにはIDと骨密度以外に性 …

no image

大気汚染データの観測

コーセラのDeveloping Data Productで知りたい場所の緯度経度を入力すると過去の観測データからオゾン濃度とPM25汚染濃度を予測するコードを紹介していた。Video Lectureの …

no image

R Dataset – bone

データの説明 261人の子供たちから得られた年齢別骨密度。 フォーマット idnum: 識別コード age: 測定時の年齢 gender: 性別 spnbmd: 骨密度 チェック テーブル全体について …

2014年1月
« 12月   2月 »
 12345
6789101112
13141516171819
20212223242526
2728293031  

side bar top



アーカイブ

カテゴリー