科学の箱

科学・IT・登山の話題

機械学習

仕事で始める機械学習 – 3.学習結果を評価しよう – 指標

投稿日:

主な指標

モデル構築後に確認する主な指標は4つある。

  • 正解率
  • 適合率
  • 再現率
  • F値

正解率

$$ 正解率 = \frac{TP + TN}{TP+FP+TN+FN} $$

正解率は全データ数に対する正解した件数である。

一見したところ正解率だけ用いればよいように感じられる。例えば{0,1}に分類する2値分類問題を考える。とりあえずすべてのデータに対して0とした場合には、正解率は50%となる。分類する数が増えていくにつれてランダムな分類では正解率は下がっていくことがわかる。データの件数に偏りがない場合には正解率は有効な指標となる。

しかしいま100件のうち0が99件、1が1件とする。この場合、すべてのデータに対して1と予測すると99%という高い正解率になる。しかしこれは意味がない正解率であることが明白だ。唯一の1については正解率は0%であるからだ。

適合率

$$ 適合率(精度)=  \frac{TP}{TP+FP} $$

適合率は正解としてラベル付けされたデータの正しさを示す。まず適合率を考えるときに機械学習の目的から考える必要がある。機械学習の目的は知りたいことに「適合」するデータを拾い出すことである。ここではTrueとなるデータが適合するデータである。

データが1000件あり、学習結果として適合するデータが100件得られたとする。しかしこの100件のうちすべてが正しいかはわからない。本来は適合していないデータが20件あるとしたら適合率は80%となる。

適合率を上げるということは誤りは許さないが、見逃しは許すということである。

例えばスパムフィルタであるならば、スパムメールボックスに入っているメールはほぼすべてスパムであり、非スパムメールはスパムメールボックスに入っていない。しかしスパムでありながら、受信ボックスに入ってしまったメールが多い、つまり見逃しが発生している可能性がある。

適合率が低いということは可能性があるスパムメールだったらとりあえず間違っている可能性が低いにも関わらずスパムとして取り扱うことになる。受信ボックスにスパムメールはなくなる。しかしスパムメールボックスにたくさんの非スパムメールがあることになる。

適合率が低い場合には適合するデータを探すためにさらに手間をかける必要がある。

 再現率

$$ 再現率 =  \frac{TP}{TP+FN} $$

再現率はすべての適合する情報のうち、実際に取得できた割合である。例えば1000件中20件のスパムメールがあるとする。このとき15件がスパムとマークされれば75%の再現率となる。最も高い再現率を出すためには、1000件すべてに対してスパムとマークすればよい。しかしこれでは分類の意味がない。さらにこの時の適合率は2%と極端に低い値になる。このように再現率と適合率はトレードオフの関係にある。

F値

適合率と再現率の調和平均である。適合率と再現率の両方がバランスよくなればF値が改善される。

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

データ分析のメモ

一変量解析 各変数についてsummaryをとり、平均値、分散を確認する。変数について尺度を確認してどのように分析を進めるかを考える。 度数分布を作成して値の分布をみてみる。正規分布の値であればいろいろ …

no image

kaggle Titanic Tutorial – 3

DecitionTreeのパラメータを調整する。 まずはMaxDepthから from sklearn.model_selection import LeaveOneOut from sklearn. …

no image

線形回帰とリッジ回帰を比較する

リッジ回帰はL2ノルムの正則項を導入することで、過学習を防ぐ。この場合過学習を防ぐとは、重みを0の方向に動かすという意味である。実際に線形回帰とリッジ回帰を比べてみて、どのようにモデルが変わるかを確認 …

no image

ポワソン分布の利用

一時間に平均7通のメールが来るとき100回試行した時のメール受信件数を調べる > rpois(100,7)  [1]  7 10  2  8  5  4  4  9  2  3  9  6  9 …

no image

SIGNATE お弁当の需要予測-1

SIGNATEのコンペであるお弁当の需要予測をpythonで分析 データは下記から取得できる https://signate.jp/competitions/24 ライブラリ読み込み importnu …

2019年11月
« 10月   12月 »
 123
45678910
11121314151617
18192021222324
252627282930  

side bar top



アーカイブ

カテゴリー