ベンフォードの法則

投稿日：2014年6月4日

数値データの先頭桁が特定の分布に従という法則。

IMFの2013年度における国別GDPのデータを使ってベンフォードの法則を試す。

データはこのリンクで取得できる。

集計してみると以下のようになった。

先頭桁	カウント	割合	理論値
1	69	37%	30.10%
2	33	18%	17.60%
3	20	11%	12.50%
4	11	6%	9.70%
5	17	9%	7.90%
6	12	6%	6.70%
7	9	5%	5.80%
8	6	3%	5.10%
9	8	4%	4.60%

おおっ確かに当てはまっている。ついでに統計的に検定をしてみる。

検定は特定の分布に従っているか、当てはまりのよさを知りたいので適合度の検定になる。適合度の検定については下記のリンクで参照できる。

http://next1.msi.sk.shibaura-it.ac.jp/MULTIMEDIA/statistics/node21.html

適合度の検定では帰無仮説はデータは特定の分布に従っている、である。対立仮説はデータは特定の分布に従っていない。

> benford_gdp<- c(69,33,20,11,17,12,9,6,8)
> benford_prob<- c(30.10,17.60,12.50,9.70,7.90,6.70,5.80,5.10,4.60)/100
> chisq.test(benford_gdp,p=benford_prob)

        Chi-squared test for given probabilities

data:  benford_gdp 
X-squared = 8.2617, df = 8, p-value = 0.4083

p=0.4083であるから有意水準5%で帰無仮説は棄却されない。よってデータが特定の分布に従っているといえる。

バレーボールの試合でラリーになってから試合終了するまでのゲーム数について調べる

条件付き確率

ベイズ定理を学ぶ前に条件付確率についておさらい