科学の箱

科学・IT・登山の話題

R

ジニ係数

投稿日:

計量経済学の本を読んでいたら、ジニ係数の利用について記述されていたのでRで実データを使って計算してみる。

経済学の勉強でジニ係数というのは知っていたが、その利用方法としては所得の分配がどの程度平等であるかを数値で表すという理解だった。しかし実際には様々な変数に利用できる。例えば事業所の規模対従業者数のジニ係数を計算することで規模の経済が働く分野の企業が明らかになる。

ジニ係数の説明についてはこちらが詳しかった。

今回は再編が進み巨大化の一途をたどっている製薬会社についてジニ係数を計算してみる。

データはList of pharmaceutical companiesからTop49の製薬および生化学の会社を利用した。

上記ページからデータをエクセルに転記後不要なカラムを削りdata.csvを作成する。

これをrevenueに読み込む。

> revenue<-read.csv(file="data.csv", head=TRUE)
> head(revenue)
                      Company TotalRevenues
1 Pfizer[33] (with Wyeth[34])        70,696
2           Johnson & Johnson        63,747
3           Hoffmann?La Roche        43,970
4                    Novartis        41,460
5             GlaxoSmithKline        40,424
6              Sanofi-Aventis        40,328

次にジニ係数を計算するineqパッケージをインストールする。このパッケージではローレンツ曲線もプロットできる。

> install.packages("ineq")
> library(ineq)

これで準備が完了したので、実際にジニ係数を計算する。

> ineq(revenue$TotalRevenues, type="Gini")
[1] 0.3265306

ジニ係数は大きくなるほど不平等、データに偏りが出てくる。今回は0.326なのでそれほど大きく不平等であるとは言えない。

ローレンツ曲線をプロットしてみる。

> plot(Lc(revenue$TotalRevenues), col="red", lwd=2)

lc

メタ情報

inarticle



メタ情報

inarticle



-R
-

執筆者:


  1. foo-bar-baz より:

    毎度お邪魔しております。
    今回の分析結果ですが,間違えているのではないでしょうか。
    read.csv からの入力を revenue データフレームに代入しておられますが,もとのファイルの TotalRevenues が 3 桁ごとにカンマで区切られていますので,数値として入力されておらず,factor になっていると思います。head で最初の 6 行を書き出しておられますが,出力にカンマが含まれていると言うことは,数値として入力できていない証拠だと思います。

    では,

    > ineq(revenue$TotalRevenues, type=”Gini”)
    [1] 0.3265306

    は何を表すかと言うことですが,factor を数値演算に用いると,要素に与えられた 1 から始まる整数値の方が使われます。つまり,この場合は ineq(1:49, type=”Gini”) としたのと同じになる訳です。実際,下のように, ineq(1:49, type=”Gini”) は 0.3265306 を返します。

    > ineq(1:49, type=”Gini”)
    [1] 0.3265306

  2. […] ジニ係数にファクターと数値変換についてコメントをいただいたので調べてみた。 […]

  3. admin より:

    コメントありがとうございます。gini係数の検証はまだすんでいませんが確かにread.csvの出力に問題がありました。

  4. […] ジニ係数について修正した。とりあえずコード。 […]

comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

data.frameについて注意すること

以前predict()について検証を進めていた際に、不可解なエラーが出てしまい、途中で調査をやめてしまったことがあった。 具体的なエラーは以下である。 > newGalton$child &lt …

no image

dataanalysis-002-week4

クラスタリング SVDと組み合わせることでよりクラスに分かれているクラスタリングを実行できる。 散布図でクラスタリングする変数を探す クラスタリング SVDを実行する SVDの結果をクラスタリングに取 …

no image

分散分析のcase study

分散分析についてcase studyをしてみる。目的はRで分散分析を実行する際の手順を明確にすること、およびそれに付随するRの関数を理解することである。 目標として以下をあげておく テストデータを含め …

no image

クラスタリング

Rによるクラスタ分析の実行 県別の持家率と自家用車普及率からクラスタ分析を実行し似た県を探してみる。。 データソース 持家と自家用車普及率のデータは下記から取得する 持家普及率のデータはこちらから取得 …

no image

Rによるやさしい統計学/5-統計的検定-1

5章で学ぶこと 5章では検定方法について紹介している。以下の方法について検定対象と検定する条件を理解する。 Z検定 t検定 無相関検定 独立性の検定 また検定の手順についてもまとめている。 検定方法 …

2014年5月
« 4月   6月 »
 1234
567891011
12131415161718
19202122232425
262728293031  

side bar top



アーカイブ

カテゴリー