科学の箱

科学・IT・登山の話題

機械学習

logistic regressionでの失敗

投稿日:2014年9月19日 更新日:

ロジスティック回帰でデータを分析しようとしたところうまくいかず。どうにもこうにもおかしな値が出るし、他の回帰分析との結果と明らか矛盾している。よくわからないのでとりあえずirisデータを使って手順を追っていきおかしなところを検証した。

おおいなる間違いをしていたのでメモしておく。

まずirisで作ったRのコードは以下の通り。

library(caret)

#
# create data set for train and testing
#
iris_data <- iris[,c(1:4)]
iris_class <- iris[5] # Factor

iris_train <- createDataPartition(y=iris_class$Species, p=0.75, list=FALSE)
iris_data_train <- iris_data[iris_train,]
iris_data_testing <- iris_data[-iris_train,]
iris_class_train <- data.frame(Species=iris_class[iris_train,])
iris_class_testing <- data.frame(Species=iris_class[-iris_train,])

#
# glm - logistic analysis
#
# glm with one independent variable.
res_glm_binomial <- glm(iris_class_train$Species~iris_data_train[,1], data=iris_data_train, family=binomial)
x <- summary(res_glm_binomial)
x
x$coefficients[8] # if less than 0.05, then siginificant.

# now extend to all of the column in iris_data_train to most significant column.
func_glm <- function(parm01){
  res_glm_binomial <- glm(iris_class_train$Species~iris_data_train[,parm01] , data=iris_data_train, family=binomial)
  x <- summary(res_glm_binomial)
  print( x$coefficients[8])
}
for (i in 1:length(iris_data_train)){
   func_glm(i)
}
#memo, from above anlysis, we can use column 1 and 2.

コードとしては単純なのになぜかロジスティック単回帰も重回帰でもおかしな変数が有意になってくる。何がおかしいかわからなかったので同じようにirisでロジスティック回帰をしているページを探してみたところ下記があった。

http://alumni.media.mit.edu/~tpminka/courses/36-350.2001/lectures/day31/

このページでロジスティック重回帰を実行しているがそのコードを見てみると以下のようになっている。

Consider the iris data from , reduced to the two classes versicolor and virginica:
data(iris) iris <- iris[(iris$Species != "setosa"),] 
iris$Species <- factor(iris$Species) 
predict.plot(Species~.,iris)

コードとしては単純だが何でsetosaを除いているんだろう、、、そうだよロジスティック回帰だから従属変数は2値じゃないとだめじゃないか。irisデータは3種類から分けるからそのまま使っては当然おかしな結果が出ることになる。

わかってみたら単純だったけどどんだけ時間がかかったんだろう。

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

会社を変える分析の力

ユーザに関する問題 不確実性 過剰期待 事前期待 分析モデルの利用 パターン 変数の数 分析の利用 予測 判別 グループ 検知 最適化 発見 探索 データ分析の必要性 なぜ誤差がでるのか Costは …

no image

irisを教師なし学習で分類ーGMM

これまでは正解ラベルがある前提、つまり教師あり学習でモデルを構築した。今回は正解ラベルがない前提でモデルを構築する。 教師なし学習としては混合ガウスモデルを利用する。 内容 データの読み込み、前処理 …

no image

irisデータについて簡単な機械学習をしてみる

irisデータを使って簡単な機械学習をしてみる。 ここで説明している内容は以下になる。 データの読み込み、前処理 トレインデータと検証データへの分割 モデル選定 モデル構築および検証 データの読み込み …

no image

Core Concept in Data Analysis – Week 3

2d Analsysis 分布図 相関 回帰分析 因果関係 ガルトンはダーウィンのいとこ Related posts:dataanalysis-002-week6スピアマンの順位相関ラテン方格

no image

Pythonではじめる機械学習 – Chap05 – Model Evaluation and Improvement

Chapter 5. Model Evaluation and Improvement 学習モデルの評価 定量的なモデルの評価は教師付きモデルが主になる。 教師なしモデルは定性的なアプローチで評価する …

2014年9月
« 8月   10月 »
1234567
891011121314
15161718192021
22232425262728
2930  

side bar top



アーカイブ

カテゴリー