logistic regressionでの失敗

投稿日：2014年9月19日更新日：2019年9月22日

ロジスティック回帰でデータを分析しようとしたところうまくいかず。どうにもこうにもおかしな値が出るし、他の回帰分析との結果と明らか矛盾している。よくわからないのでとりあえずirisデータを使って手順を追っていきおかしなところを検証した。

おおいなる間違いをしていたのでメモしておく。

まずirisで作ったRのコードは以下の通り。

library(caret)

#
# create data set for train and testing
#
iris_data <- iris[,c(1:4)]
iris_class <- iris[5] # Factor

iris_train <- createDataPartition(y=iris_class$Species, p=0.75, list=FALSE)
iris_data_train <- iris_data[iris_train,]
iris_data_testing <- iris_data[-iris_train,]
iris_class_train <- data.frame(Species=iris_class[iris_train,])
iris_class_testing <- data.frame(Species=iris_class[-iris_train,])

#
# glm - logistic analysis
#
# glm with one independent variable.
res_glm_binomial <- glm(iris_class_train$Species~iris_data_train[,1], data=iris_data_train, family=binomial)
x <- summary(res_glm_binomial)
x
x$coefficients[8] # if less than 0.05, then siginificant.

# now extend to all of the column in iris_data_train to most significant column.
func_glm <- function(parm01){
  res_glm_binomial <- glm(iris_class_train$Species~iris_data_train[,parm01] , data=iris_data_train, family=binomial)
  x <- summary(res_glm_binomial)
  print( x$coefficients[8])
}
for (i in 1:length(iris_data_train)){
   func_glm(i)
}
#memo, from above anlysis, we can use column 1 and 2.

コードとしては単純なのになぜかロジスティック単回帰も重回帰でもおかしな変数が有意になってくる。何がおかしいかわからなかったので同じようにirisでロジスティック回帰をしているページを探してみたところ下記があった。

http://alumni.media.mit.edu/~tpminka/courses/36-350.2001/lectures/day31/

このページでロジスティック重回帰を実行しているがそのコードを見てみると以下のようになっている。

Consider the iris data from , reduced to the two classes versicolor and virginica:
data(iris) iris <- iris[(iris$Species != "setosa"),] 
iris$Species <- factor(iris$Species) 
predict.plot(Species~.,iris)

コードとしては単純だが何でsetosaを除いているんだろう、、、そうだよロジスティック回帰だから従属変数は２値じゃないとだめじゃないか。irisデータは３種類から分けるからそのまま使っては当然おかしな結果が出ることになる。

わかってみたら単純だったけどどんだけ時間がかかったんだろう。

dataanalysis-002-week6

スピアマンの順位相関

Core Concept in Data Analysis - Week 2