data.frameについて注意すること

投稿日：2014年5月9日

以前predict()について検証を進めていた際に、不可解なエラーが出てしまい、途中で調査をやめてしまったことがあった。

具体的なエラーは以下である。

> newGalton$child <- predict(lm1, data.frame(newGalton$parent))
 警告メッセージ： 
 'newdata' は 1000 個の行を持ちますが、見付かった変数は 928 の行数を持ちます：

その後コメントから動くスクリプトを掲示されたので比較してみた。

右側がコメントでいただいたスクリプトである。このコメントについては下記から参照できる。

Rでのランダムデータ作成 – 上級編（改）

さてこのスクリプトを比較してみるとdata.frameについてパラメータが異なっている。

自分のスクリプト

data.frame(newGalton$parent)

正しいスクリプト

data.frame(parent=parent.data)

data.frame()の使い方について確認をしたところ、データの指定は”カラム名=データソース”であることがわかった。間違っているほうではデータソースのみを指定しているために何らかの問題が発生していたかと推測される。

ちなみに少ない数でテストをしてみたところ、データソースのみ指定と、カラム名およびデータソース指定で違いは見られなかった。よってこの問題はデータに依存すると考えられる。

> data.frame(c(1,2,3))
  c.1..2..3.
1          1
2          2
3          3
> data.frame(id=c(1,2,3))
  id
1  1
2  2
3  3

執筆者：admin