科学の箱

科学・IT・登山の話題

機械学習

Pythonではじめる機械学習 – Chap04

投稿日:

4.4 Binning, Discretization, Linear Models, and Trees

ビン化のメリット

  • 決定木でビン化するメリットはあまりない
    • 決定木はモデルの中で一つの特徴について最適なビン化を探索する。
    • 複数の特徴量を用いたビン化ができる。
  • 線形回帰ではビン化によりモデルの正解率が高くなる可能性がある。
  • 線形回帰で次元数が高く、非線形の特徴量がある場合にはビン化が有効である。

 

4.5 Interactions and Polynomials

Interactions

  • Bin化した値を学習モデルに加えることで、結果に傾斜が付く
  • オフセットの意味がよくわからない

Polynomials

  • 累乗の項を加えることでモデルに滑らかさがでる。
  • この辺りはそういうものだと覚えてしまうのが良い

4.6 Univariate Nonlinear Transformations

Univariate

  • 対象となる一つの変数についてlog, expで変換する
  • モデルでは特徴量がガウス分布であるときに良い結果を出す。
  • ガウス分布になるように、log, expで変換をしてみる。

this is particularly true for less complex models like linear models and naive Bayes models. Tree-based models, on the other hand, are often able to discover important interactions themselves, and don’t require transforming the data explicitly most of the time. Other models, like SVMs, nearest neighbors, and neural networks, might sometimes benefit from using binning, interactions, or polynomials, but the implications there are usually much less clear than in the case of linear models.

  • ビン、ポリノミアル、インターラクションは単純なモデル、例えば線形やナイーブベイズで大きな影響がある
  • 決定木モデルは学習の中で自動的に適切なインターラクション等を探す。データをあらかじめ変換する必要はない
  • SVM, kNN, NNでは役に立つこともあるがただし説明が難しい→ビジネスでの利用は避けるべきか?

4.7 Automatic Feature Selection

新しい特徴量を生成する

  • モデルが高次元になる
  • 過学習の傾向が強くなる
  • 新しい特徴量を加えたら、その分次元削減をすべきである
  • ではどのように重要な特徴量を選択するか

重要な特徴量を選択する方法

  • univariate statistics
  • model-based selection
  • iterative selection

4.7.1 Univariate Statistics

統計的に目的変数に対して高い信頼度を持つ特徴量を選択する

  • 分類ではANOVAと呼ばれる。
  • 特徴を評価するときには単体の特徴として取り扱われる
  • いくつかの特徴量を組み合わせて目的変数に影響を及ぼす場合であっても、該当の特徴量や削除される。
  • 単体でしか評価しないので早い

4.7.2 Model-Based Feature Selection

Model based Feature Selection

  • 教師あり学習を利用して特徴量を選択する
  • 特徴量全体を効力するためにインターラクションも考慮される

モデルごとのランキング方法

  • 決定木および決定木を利用するモデル – feature_importances_
  • 線形回帰 – 係数

4.7.3 Iterative Feature Selection

iterative feature selectionのモデル生成

  • Univariateではモデルを生成しない、Model-Basedでは一つのモデルを生成する
  • Iterative Feature Selectionでは複数のモデルを生成する

iterative feature selectionの進め方

  • starting with no features and adding features one by one until some stopping criterion is reached
  • starting with all features and removing features one by one until some stopping criterion is reached

4.8 Utilizing Expert Knowledge

the time of day

  • 連続尺度として認識されると時間のパターンは共有されない→時間が遅くなるとレンタル数が増える、ということしかわからない
  • しかし実際のパターンはより複雑である→連続尺度は線形でしか認識されない→増えるか減るか
  • カテゴラルにすれば非線形になる

 

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Core Concept in Data Analysis – Week 1

パート Data Mining Core Analysis Visualization Illustrate Data Mining data mining = patterns in data + …

no image

仕事で始める機械学習 – 2.機械学習で何ができるか – 分類 – SVM

SVMの決定境界 SVMの決定境界はSVMで利用するカーネルにより異なる。 線形カーネル→線形 RBFカーネル→非線形 損失関数 損失関数としてはヒンジ関数を利用するが、パーセプトロンとは異なり、横軸 …

no image

irisを教師なし学習で分類ーGMM

これまでは正解ラベルがある前提、つまり教師あり学習でモデルを構築した。今回は正解ラベルがない前提でモデルを構築する。 教師なし学習としては混合ガウスモデルを利用する。 内容 データの読み込み、前処理 …

no image

仕事で始める機械学習 – 2.機械学習で何ができるか – 分類 – パーセプトロン

パーセプトロン 判別式 それぞれのデータに対して重みづけした値 ヒンジ損失 パーセプトロンの損失関数をヒンジ損失という。パーセプトロン基準とも呼ばれる。 sum(wx) 状態 ラベル label*su …

no image

logistic regressionでの失敗

ロジスティック回帰でデータを分析しようとしたところうまくいかず。どうにもこうにもおかしな値が出るし、他の回帰分析との結果と明らか矛盾している。よくわからないのでとりあえずirisデータを使って手順を追 …

2019年12月
« 11月   4月 »
 1
2345678
9101112131415
16171819202122
23242526272829
3031  

side bar top



アーカイブ

カテゴリー