科学の箱

科学・IT・登山の話題

R

Rによるやさしい統計学/4-母集団と標本

投稿日:2014年1月14日 更新日:

言葉の定義

推測統計、推定、点推定、区間推定、検定

標本、標本統計量、推定量、標本抽出、確率変数、確率分布、標本誤差

標本分布、標本統計量、平均、標準偏差、標準誤差

4.5 標本分布

標本平均の標本分布を作成する。平均50, 標準偏差 20である母集団から標本を10個10000回取得し平均を計算し、標本分布を作成する。

sample_mean <- numeric(10000)
> for (i in 1:10000){
+ sample <- rnorm(n=10, mean=50, sd=20)
+ sample_mean[i] <- mean(sample)
+ }
> hist(sample_mean)
> hist(sample_mean, breaks=100)

Image 10

標本分布の平均および標準偏差(標準誤差)について調べる。

> mean(sample_mean)
[1] 49.96364
+ > var(sample_mean)
[1] 41.60138
> sd(sample_mean)
[1] 6.449913

予測される分散は 20^2/10 = 40であることからかなり近い数値が出ている。

理論上の標本分布と比較をしてみる。

> hist(sample_mean, breaks=100, freq=FALSE)
> curve(dnorm(x, mean=50, sd=sqrt(40)), add=TRUE)

Image 11

練習問題

1

> aaa.sv <- numeric(length=5000)
> aaa.usv <- numeric(length=5000)
> for (i in 1:5000){
+ w_v <- rnorm(n=20, mean=50, sd=10)
+ aaa.sv[i] <- mean((w_v - mean(w_v))^2)
+ aaa.usv[i] <- var(w_v)
+ }

それぞれの分散について平均を見ると

> mean(aaa.sv)
[1] 95.10715
> mean(aaa.usv)
[1] 100.1128

不偏分散のほうが母分散に近くなっていることがわかる。

次に分散を見てみる。

> sd(aaa.sv)
[1] 30.45344
> sd(aaa.usv)
[1] 32.05625

不偏分散では標準誤差が大きいことがわかるので推定値のばらつきが大きい。ただし標本分散は不変ではないので母分散の推定に使えるわけではない。

それぞれの分散についてヒストグラムを描いてみる。

> par(mfrow=c(1,2))
> hist(aaa.sv, breaks=seq(0,500,10))
> hist(aaa.usv, breaks=seq(0,500,10))

var_hist

平均について同じように計算をする

> sample_mean <- numeric(length=5000)
> for (i in 1:5000){
+   sample_w <- rnorm(n=20, mean=50, sd=10)
+   sample_mean[i] <- mean(sample_w)
+ }
> mean(sample_mean)
[1] 50.01909
> sd(sample_mean)
[1] 2.207616

> hist(sample_mean, breaks=seq(40, 60, 0.5), freq=FALSE)
> curve(dnorm(x, mean=50, sd=sqrt(100/20)), add=TRUE)

sample_mean

2

curve(dnorm(x, mean=0, sd=sqrt(1/25)), from=-1, to =1)
sample_size <- c(1,4,9,16)
for (i in sample_size){
 curve(dnorm(x, mean=0, sd=sqrt(1/i)), add=TRUE)
}

sample

サンプル数が少ないほど分散が広い=標準誤差が大きいために不偏推定量としては適切とは言えない。サンプル数が大きくなると標準誤差が小さくなってくる。サンプル数25なら母平均を推定するための不偏推定量として標本平均を利用できる。

メタ情報

inarticle



メタ情報

inarticle



-R

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

dataanalysis-002-week2

Structure of Data Analysis 質問を定義する 理想的なデータセットの定義 アクセスできるデータの検索 データの取得 クレンジング Exploratory 統計的予測・モデリング …

no image

主成分分析

Rで提供されているirisを使って主成分分析を実施する。 主成分分析の手順 データが分離できるか検証する 主成分負荷量と寄与率を求める 新しい変数に名前を付ける 変量プロット 主成分プロット 今回はR …

no image

splineを利用する

データが連続していない時には、となりあうデータを使ってその間の値を予測できる。簡単な例では1と2という値があり、この間を一つの値で補完すると1.5となる。補間する値を増やしていけば滑らかな曲線になる。 …

no image

cexについてまとめる

Rでグラフィックのパラメータはpar()で指定する。par()のパラメータを変更することでplotなどの表示方法を柔軟に変更できる。例えばラベルのフォントの大きさなどである。下記はpar()で指定でき …

no image

大気汚染データの観測

コーセラのDeveloping Data Productで知りたい場所の緯度経度を入力すると過去の観測データからオゾン濃度とPM25汚染濃度を予測するコードを紹介していた。Video Lectureの …

2014年1月
« 12月   2月 »
 12345
6789101112
13141516171819
20212223242526
2728293031  

side bar top



アーカイブ

カテゴリー