科学の箱

科学・IT・登山の話題

機械学習

データ分析のメモ

投稿日:2014年7月18日 更新日:

一変量解析

各変数についてsummaryをとり、平均値、分散を確認する。変数について尺度を確認してどのように分析を進めるかを考える。

度数分布を作成して値の分布をみてみる。正規分布の値であればいろいろな統計分析ができる。数値データとしてもあらかじめ取得しておく。

群により分布の違いを確認する(層別)。箱ひげ図で平均値とレンジを比較する。また偏りを確認して必要であれば対数あるいは指数化して分析を進める。

群による違いがはっきりあるかを確認するために母数の検定をする。

2変量解析

変数間の相関をとって、関連性を調べる。相関は相関係数および散布図で確認する。

テーブルを作成して目的変数の違いによりどのように従属変数の違いが出るかを明らかにする。違いをΧ二乗で検定する。

違いが明らかになればその理由およびその利用方法を考える。

G1で層別、G2-変数について観察レコードをカウントする。G1別にG2の観察レコードを件数でまとめて順位付けして1~3位について比較する。

G1で層別、G2-変数についてcutとしてヒストグラムを作成する。閾値で足切をして絶対件数と全体の割合を比較する。

回帰分析

回帰分析でモデルを考えてみる。

クラスタリング

クラスタリングで群の判別をしてみる。群を判別するときには学習データがあるかないかによる違いについても確認する。

クラスタ数を変えてみて実際の群と当てはまりのよい群の違いを見てみる。

学習データがあればPCAを利用して、群を分けることができる変数を作ってみる。

判別

判別分析で群の識別を明らかにしてみる。2変量解析やクラスタリングの結果をもとにして当てはまりのよいモデルを考える。

時系列

時系列で数値尺度のトレンドをみる。全体として挙がっているのか下がっているのか、変わらないのか。

層別にしてすべてが同じトレンドなのかを解析する。全体のトレンドに逆らっている層があれば重点的に調査をする。

線形回帰→coefficientでクラスタ→グループ識別に挑戦してみる→重回帰を利用して当てはまりのよいモデルを作る。

参考にする分析

  • Iris
  • PM25

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

スパムメールの判別に使うベイズ定理についてまとめる

分類問題 スパムメールを判別するような問題は一般的に「分類問題」として機械学習では取り扱う。分類問題とはいまある「物」や「発生した事柄」を確率的に分類する。この「確率的」という言葉がみそであり、固定さ …

no image

仕事で始める機械学習 – 2.機械学習で何ができるか – 分類 – ロジスティック回帰

ロジスティック回帰 確率を得るために パーセプトロンの判別式により確率をとることはできない。パーセプトロンのヒンジ損失は正負のみを判断し、間違っている場合だけパラメータの更新をする。つまりぎりぎりで正 …

no image

仕事で始める機械学習 – 2.機械学習で何ができるか – 分類 – SVM

SVMの決定境界 SVMの決定境界はSVMで利用するカーネルにより異なる。 線形カーネル→線形 RBFカーネル→非線形 損失関数 損失関数としてはヒンジ関数を利用するが、パーセプトロンとは異なり、横軸 …

no image

独立性の検定 2つ

ニートの年齢別割合が1996年と2012年で関連性があるか独立性の検定をしてみる。 ニートの割合  1996 2012 15~19歳 9 9 20~24歳 12 17 25~29歳 10 18 30~ …

no image

ウェブ分析をハンズオンで学ぶ

ウェブ分析の本を読んでもあまりあたまに入ってこない。実際に手を動かさないと、身につかないわけである。 ということでハンズオンで実践して見ることにした。ハンズオンで実践するに当たり必要なのはデータとツー …

2014年7月
« 6月   8月 »
 123456
78910111213
14151617181920
21222324252627
28293031  

side bar top



アーカイブ

カテゴリー