数値データの先頭桁が特定の分布に従という法則。
IMFの2013年度における国別GDPのデータを使ってベンフォードの法則を試す。
データはこのリンクで取得できる。
集計してみると以下のようになった。
| 先頭桁 | カウント | 割合 | 理論値 |
| 1 | 69 | 37% | 30.10% |
| 2 | 33 | 18% | 17.60% |
| 3 | 20 | 11% | 12.50% |
| 4 | 11 | 6% | 9.70% |
| 5 | 17 | 9% | 7.90% |
| 6 | 12 | 6% | 6.70% |
| 7 | 9 | 5% | 5.80% |
| 8 | 6 | 3% | 5.10% |
| 9 | 8 | 4% | 4.60% |
おおっ確かに当てはまっている。ついでに統計的に検定をしてみる。
検定は特定の分布に従っているか、当てはまりのよさを知りたいので適合度の検定になる。適合度の検定については下記のリンクで参照できる。
http://next1.msi.sk.shibaura-it.ac.jp/MULTIMEDIA/statistics/node21.html
適合度の検定では帰無仮説はデータは特定の分布に従っている、である。対立仮説はデータは特定の分布に従っていない。
> benford_gdp<- c(69,33,20,11,17,12,9,6,8) > benford_prob<- c(30.10,17.60,12.50,9.70,7.90,6.70,5.80,5.10,4.60)/100 > chisq.test(benford_gdp,p=benford_prob) Chi-squared test for given probabilities data: benford_gdp X-squared = 8.2617, df = 8, p-value = 0.4083
p=0.4083であるから有意水準5%で帰無仮説は棄却されない。よってデータが特定の分布に従っているといえる。