科学の箱

科学・IT・登山の話題

機械学習

Pythonではじめる機械学習 – GMM

投稿日:

k-Meansの課題

  • クラスタ間で微妙な位置関係にあるデータについて特定クラスタに分類された際の不確実の度合いを知ることができない。
  • 例えば51%の確率でクラスタAであり、49%の確率でクラスタBかもしれないがそれはモデルからは判明しない。

クラスタリングの精度を知るための一つの方法として、クラスタの中心から円を描き、その円に入らないデータはクラスタから除外する

  • この方法ではクラスタの形が円であることが前提である。
  • 楕円等になった場合には、正しくクラスタリングできない

PCAにより軸を変える方法が考えられるが、しかしPCAによりデータが円状になることは保証されていない。

k-meansの問題は2つである。

  • クラスタの形状は柔軟性がない
  • 確率によるデータのクラスタへの割り当てができない

この問題を解決する方法としては2つある。

  1. クラスタの形状に楕円を用いる
  2. データについてすべてのクラスタ中心からの距離を測定する

ガウス分布と混合ガウス分布

ガウス分布とは正規分布のことである。正規分布は統計で最も基本となる確率分布となり、中心となる平均と広がりである分散となる2つのパラメータをもつ曲線である。

混合ガウス分布とは平均と分散が異なる複数のガウス分布を組み合わせた分布となる。データの散らばり具合、その確率を混合ガウス分布で表現する。複数の正規分布を用いるので正規分布より柔軟な表現が可能になる。

混合ガウスモデル

混合ガウスモデルの学習では、「データはすでに存在する確率分布=混合ガウス分布により生成したとみなす」を前提にする。その前提に立ち、データから混合ガウス分布を求める。

ガウスモデルは平均と分散をパラメータとする。分散を変えることで楕円形のクラスタを生成することが可能になる。

 

混合ガウスモデルの求め方は以下のようになる。

  1. 各クラスタごとに初期のガウス分布を分布を生成する(初期パラメータを平均と分散に設定する)
  2. 各データについてそれぞれのガウス分布の重みを計算する
  3. 得られた重みによりガウス分布を更新する。
  4. ガウス分布の変化が十分小さくなるまで繰り返す。

実装

covariance_typeによるクラスタ形状の指定

デフォルト値は”diag”。これは楕円であるが軸は軸に依存する。”spherial”ではクラスタの形状は球形となり、k-meansと似た結果を返す。”full”は最も柔軟な楕円を返す。ただし計算量は多くなる。

n_componentsの大きさ

n_componentsによりデータポイントに合わせた柔軟なクラスタを得ることができる。ただし大きすぎても意味がなくなる。AICおよびBICにより最適なn_componentsを取得する

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

irisでPCAを実行し可視化

irisデータをPCAで2次元に分類して可視化してみる。 内容 準備及びデータの前処理 PCA プロット   準備及びデータの前処理 irisデータを読み込み、PCAを実行するための前処理を …

no image

Pythonではじめる機械学習 – 多様体学習

多様体学習 次元削減に利用できる手法として主成分分析がある。これは柔軟であり、すぐに実装可能な次元削減アルゴリズムの一つである。しかし一つだけ問題がある。それは主成分分析に適用できるデータは線形のみで …

no image

Mahout in Action/chap2

2.1 レコメンドには2種類ある。 collaborative filtering contents based filtering collaborative filteringではコンテンツの内容 …

no image

conjoint分析の資料

マニュアル conjointパッケージ caFactorialDesign Rでconjointパッケージを利用した例 Rでコンジョイント分析 Rでコンジョイント分析 |極めて個人的なメモ コンジョイ …

no image

回帰と分類の違い

回帰と分類は両方とも”予測”問題である。予測とは従属変数から目的変数を明らかにする。この目的変数の種類により回帰と分類に分けられる。 回帰では連続した数値を予測する。例えば株価 …

2019年11月
« 10月   12月 »
 123
45678910
11121314151617
18192021222324
252627282930  

side bar top



アーカイブ

カテゴリー