科学の箱

科学・IT・登山の話題

機械学習

logistic regressionでの失敗

投稿日:2014年9月19日 更新日:

ロジスティック回帰でデータを分析しようとしたところうまくいかず。どうにもこうにもおかしな値が出るし、他の回帰分析との結果と明らか矛盾している。よくわからないのでとりあえずirisデータを使って手順を追っていきおかしなところを検証した。

おおいなる間違いをしていたのでメモしておく。

まずirisで作ったRのコードは以下の通り。

library(caret)

#
# create data set for train and testing
#
iris_data <- iris[,c(1:4)]
iris_class <- iris[5] # Factor

iris_train <- createDataPartition(y=iris_class$Species, p=0.75, list=FALSE)
iris_data_train <- iris_data[iris_train,]
iris_data_testing <- iris_data[-iris_train,]
iris_class_train <- data.frame(Species=iris_class[iris_train,])
iris_class_testing <- data.frame(Species=iris_class[-iris_train,])

#
# glm - logistic analysis
#
# glm with one independent variable.
res_glm_binomial <- glm(iris_class_train$Species~iris_data_train[,1], data=iris_data_train, family=binomial)
x <- summary(res_glm_binomial)
x
x$coefficients[8] # if less than 0.05, then siginificant.

# now extend to all of the column in iris_data_train to most significant column.
func_glm <- function(parm01){
  res_glm_binomial <- glm(iris_class_train$Species~iris_data_train[,parm01] , data=iris_data_train, family=binomial)
  x <- summary(res_glm_binomial)
  print( x$coefficients[8])
}
for (i in 1:length(iris_data_train)){
   func_glm(i)
}
#memo, from above anlysis, we can use column 1 and 2.

コードとしては単純なのになぜかロジスティック単回帰も重回帰でもおかしな変数が有意になってくる。何がおかしいかわからなかったので同じようにirisでロジスティック回帰をしているページを探してみたところ下記があった。

http://alumni.media.mit.edu/~tpminka/courses/36-350.2001/lectures/day31/

このページでロジスティック重回帰を実行しているがそのコードを見てみると以下のようになっている。

Consider the iris data from , reduced to the two classes versicolor and virginica:
data(iris) iris <- iris[(iris$Species != "setosa"),] 
iris$Species <- factor(iris$Species) 
predict.plot(Species~.,iris)

コードとしては単純だが何でsetosaを除いているんだろう、、、そうだよロジスティック回帰だから従属変数は2値じゃないとだめじゃないか。irisデータは3種類から分けるからそのまま使っては当然おかしな結果が出ることになる。

わかってみたら単純だったけどどんだけ時間がかかったんだろう。

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

データ分析の基本と業務

開発生産性は調和平均で計算する。 安全性の在庫の計算には正規分布を利用できる。 標準偏差=5であることを利用すると何が言えるか。 Z=1.96で95%をカバーする。 よって 5 x 1.96でほぼ10 …

no image

Core Concept in Data Analysis – Week 4

Contingency Table : 分割表 Nominal : 名目 (カテゴリカル) Taxon : 分類 Marginal : 周辺 Conditional Probability : 条件付 …

no image

実践ワークショップExcel徹底活用ビジネスデータ分析

メモ 相関係数の行列で傾向が似ている変数を探すことができる。例えば過去データとして商品A,B,C,D,E,Fがあるとする。今商品Xを開発し、マーケティング方法を決めたい。この時A~Fについてはすでに売 …

no image

Exploratory Data Analysis

データを取得した後にやることは、データの構造化とクレンジング。それが完了したらData Exploratory Analysisに入る。 Exloratory Data Analysis(EDA)に関 …

no image

Pythonではじめる機械学習 – k-Means

k-Meansの概要 k-Meansは教師なし学習の一つであり、あらかじめ指定された数にグループを分ける。 例えば今身長である程度まとまって席に座っている生徒を考えます。k-Meansでは最初に分ける …

2014年9月
« 8月   10月 »
1234567
891011121314
15161718192021
22232425262728
2930  

side bar top



アーカイブ

カテゴリー