科学・IＴ・登山の話題

仕事で始める機械学習 – 2.機械学習で何ができるか – 分類 – ロジスティック回帰

投稿日：2019年11月13日

ロジスティック回帰

確率を得るために

パーセプトロンの判別式により確率をとることはできない。パーセプトロンのヒンジ損失は正負のみを判断し、間違っている場合だけパラメータの更新をする。つまりぎりぎりで正解となったとしても考慮されない。またあらゆる値をとりうるために0～1となる確率は合わない。そのためにロジスティック回帰ではパーセプトロンとは異なる活性化関数と誤差関数を利用する。

シグモイド関数

実数を0～1に押し込める関数＝シグモイド関数

尤度関数から交差エントロピー誤差関数

もっともふさわしいパラメータwを推定するための関数。これは各データが正解ラベルになる条件確率をすべて掛け合わす関数である。尤度関数が最も大きくなる重みwを探す。尤度関数は掛け算であり計算が面倒くさいので対数化する。さらに最小値を求める計算にするために記号を反転する。これを交差エントロピー誤差関数と呼ぶ。

正則化

データの損失があっても、低い重みのほうが評価が高くなる（目的関数が低くなる）。

w = -10 ～ +30
損失関数 = 0.5*(w-20)^2 + 20
正則 = w^2

正則化が弱いとすべてのパラメータがモデルに組み込まれるので過学習を起こす。この結果としてすべての訓練データを通るような曲線を生成するモデルになる。それに対して正則化が強すぎるとパラメータの重みが0に近くなってしまうために直線に近づいてくる。

Related posts:

dataanalysis-002-week3

線形回帰と最急降下法

仕事で始める機械学習 – 4章システムに機械学習を組み込む

執筆者：admin

comment コメントをキャンセル

関連記事

: 線形回帰とリッジ回帰とラッソ回帰の違い

用語線形回帰データから平均二乗誤差を最低にするパラメータΘを求めて、直線で回帰すること $$ y = Θ_0 + Θ_1 \times x $$ コスト関数損失関数とも呼ばれる。実際のデータと予 …

: 手書き数字データについて次元縮約および教師ありモデルの構築

前回手書き数字データについてイメージで確認した結果、人の目で確認する分には区別ができる。では機械学習ではどのように実施していくのか。今回は以下の内容について説明する。多様体学習による次元縮約ナイ …

: logistic regressionでの失敗

ロジスティック回帰でデータを分析しようとしたところうまくいかず。どうにもこうにもおかしな値が出るし、他の回帰分析との結果と明らか矛盾している。よくわからないのでとりあえずirisデータを使って手順を追 …

: スパムメールの判別に使うベイズ定理についてまとめる

分類問題スパムメールを判別するような問題は一般的に「分類問題」として機械学習では取り扱う。分類問題とはいまある「物」や「発生した事柄」を確率的に分類する。この「確率的」という言葉がみそであり、固定さ …

: 独立性の検定２つ

ニートの年齢別割合が1996年と2012年で関連性があるか独立性の検定をしてみる。ニートの割合 1996 2012 15～19歳 9 9 20～24歳 12 17 25～29歳 10 18 30～ …

PREV: 仕事で始める機械学習 - 2.機械学習で何ができるか - 分類 - パーセプトロン
NEXT: 仕事で始める機械学習 - 2.機械学習で何ができるか - 分類 - SVM

GIMPでForeground color pickerが正しくない色をピックアップするときの対応方法 2021年9月7日
lerpとslerpの違い 2021年8月5日
シェーダーとは 2021年8月3日
Unityの座標系についてメモ 2021年7月1日
ALLとREMOVEFILTERSの違い 2021年6月28日