科学の箱

科学・IT・登山の話題

機械学習

データ分析のメモ

投稿日:2014年7月18日 更新日:

一変量解析

各変数についてsummaryをとり、平均値、分散を確認する。変数について尺度を確認してどのように分析を進めるかを考える。

度数分布を作成して値の分布をみてみる。正規分布の値であればいろいろな統計分析ができる。数値データとしてもあらかじめ取得しておく。

群により分布の違いを確認する(層別)。箱ひげ図で平均値とレンジを比較する。また偏りを確認して必要であれば対数あるいは指数化して分析を進める。

群による違いがはっきりあるかを確認するために母数の検定をする。

2変量解析

変数間の相関をとって、関連性を調べる。相関は相関係数および散布図で確認する。

テーブルを作成して目的変数の違いによりどのように従属変数の違いが出るかを明らかにする。違いをΧ二乗で検定する。

違いが明らかになればその理由およびその利用方法を考える。

G1で層別、G2-変数について観察レコードをカウントする。G1別にG2の観察レコードを件数でまとめて順位付けして1~3位について比較する。

G1で層別、G2-変数についてcutとしてヒストグラムを作成する。閾値で足切をして絶対件数と全体の割合を比較する。

回帰分析

回帰分析でモデルを考えてみる。

クラスタリング

クラスタリングで群の判別をしてみる。群を判別するときには学習データがあるかないかによる違いについても確認する。

クラスタ数を変えてみて実際の群と当てはまりのよい群の違いを見てみる。

学習データがあればPCAを利用して、群を分けることができる変数を作ってみる。

判別

判別分析で群の識別を明らかにしてみる。2変量解析やクラスタリングの結果をもとにして当てはまりのよいモデルを考える。

時系列

時系列で数値尺度のトレンドをみる。全体として挙がっているのか下がっているのか、変わらないのか。

層別にしてすべてが同じトレンドなのかを解析する。全体のトレンドに逆らっている層があれば重点的に調査をする。

線形回帰→coefficientでクラスタ→グループ識別に挑戦してみる→重回帰を利用して当てはまりのよいモデルを作る。

参考にする分析

  • Iris
  • PM25

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

irisをナイーブベイズで分類

ナイーブベイズの概要 ナイーブベイズは教師ありの分類アルゴリズムの一つである。 計算アルゴリズムとしてはベイズ定理を用いている。 機械学習における特徴としてはいかがある 実装が簡単であり、複雑なハイパ …

no image

判別式

判別式の手順 散布図をプロットしてみてグループに分けることができるかを検討する 判別式のモデル(線形判別、マハラノビスなど)を検討する データを読み込み判別式テンプレートを作成する 判別式を作成する …

no image

仕事で始める機械学習 – 1. 機械学習プロジェクトの始め方

機械学習プロジェクトの流れ 問題の定式化 機械学習を利用しない方法 システム設計 アルゴリズム選定 特徴量・教師データ・ログの設計 前処理 学習・パラメータチューニング システム統合 問題の定式化 目 …

no image

SIGNATE お弁当の需要予測-1

SIGNATEのコンペであるお弁当の需要予測をpythonで分析 データは下記から取得できる https://signate.jp/competitions/24 ライブラリ読み込み importnu …

no image

Pythonではじめる機械学習 – Chap04

4.4 Binning, Discretization, Linear Models, and Trees ビン化のメリット 決定木でビン化するメリットはあまりない 決定木はモデルの中で一つの特徴につ …

2014年7月
« 6月   8月 »
 123456
78910111213
14151617181920
21222324252627
28293031  

side bar top



アーカイブ

カテゴリー