科学の箱

科学・IT・登山の話題

機械学習

logistic regressionでの失敗

投稿日:2014年9月19日 更新日:

ロジスティック回帰でデータを分析しようとしたところうまくいかず。どうにもこうにもおかしな値が出るし、他の回帰分析との結果と明らか矛盾している。よくわからないのでとりあえずirisデータを使って手順を追っていきおかしなところを検証した。

おおいなる間違いをしていたのでメモしておく。

まずirisで作ったRのコードは以下の通り。

library(caret)

#
# create data set for train and testing
#
iris_data <- iris[,c(1:4)]
iris_class <- iris[5] # Factor

iris_train <- createDataPartition(y=iris_class$Species, p=0.75, list=FALSE)
iris_data_train <- iris_data[iris_train,]
iris_data_testing <- iris_data[-iris_train,]
iris_class_train <- data.frame(Species=iris_class[iris_train,])
iris_class_testing <- data.frame(Species=iris_class[-iris_train,])

#
# glm - logistic analysis
#
# glm with one independent variable.
res_glm_binomial <- glm(iris_class_train$Species~iris_data_train[,1], data=iris_data_train, family=binomial)
x <- summary(res_glm_binomial)
x
x$coefficients[8] # if less than 0.05, then siginificant.

# now extend to all of the column in iris_data_train to most significant column.
func_glm <- function(parm01){
  res_glm_binomial <- glm(iris_class_train$Species~iris_data_train[,parm01] , data=iris_data_train, family=binomial)
  x <- summary(res_glm_binomial)
  print( x$coefficients[8])
}
for (i in 1:length(iris_data_train)){
   func_glm(i)
}
#memo, from above anlysis, we can use column 1 and 2.

コードとしては単純なのになぜかロジスティック単回帰も重回帰でもおかしな変数が有意になってくる。何がおかしいかわからなかったので同じようにirisでロジスティック回帰をしているページを探してみたところ下記があった。

http://alumni.media.mit.edu/~tpminka/courses/36-350.2001/lectures/day31/

このページでロジスティック重回帰を実行しているがそのコードを見てみると以下のようになっている。

Consider the iris data from , reduced to the two classes versicolor and virginica:
data(iris) iris <- iris[(iris$Species != "setosa"),] 
iris$Species <- factor(iris$Species) 
predict.plot(Species~.,iris)

コードとしては単純だが何でsetosaを除いているんだろう、、、そうだよロジスティック回帰だから従属変数は2値じゃないとだめじゃないか。irisデータは3種類から分けるからそのまま使っては当然おかしな結果が出ることになる。

わかってみたら単純だったけどどんだけ時間がかかったんだろう。

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

dataanalysis-002-week3

exploratory analysis グラフの目的 データのおおよそを理解する パターンを探す モデリングを探す デバッグ コミュニケーション boxplot 値のレンジを確認する 他の値とレンジ …

no image

conjoint分析の資料

マニュアル conjointパッケージ caFactorialDesign Rでconjointパッケージを利用した例 Rでコンジョイント分析 Rでコンジョイント分析 |極めて個人的なメモ コンジョイ …

no image

線形回帰と最急降下法

線形回帰 世の中の様々な出来事(y)はある事象(x)に対して比例することが多い。もちろん厳密に比例するわけではなくずれは生じる。しかしこのxとyが比例すると仮定した場合、中学校で習った一次式でこの関係 …

no image

データ分析のメモ

一変量解析 各変数についてsummaryをとり、平均値、分散を確認する。変数について尺度を確認してどのように分析を進めるかを考える。 度数分布を作成して値の分布をみてみる。正規分布の値であればいろいろ …

no image

pythonのデータ分析ライブラリで遊んでみる。

こちらを参考にしてPythonのデータ分析用のライブラリをそろえてみた。 まずはお手軽にヒストグラムを書いてみる。コマンドラインからipythonを立ち上げる。 ipython –pylab &#8 …

2014年9月
« 8月   10月 »
1234567
891011121314
15161718192021
22232425262728
2930  

side bar top



アーカイブ

カテゴリー