一変量解析
各変数についてsummaryをとり、平均値、分散を確認する。変数について尺度を確認してどのように分析を進めるかを考える。
度数分布を作成して値の分布をみてみる。正規分布の値であればいろいろな統計分析ができる。数値データとしてもあらかじめ取得しておく。
群により分布の違いを確認する(層別)。箱ひげ図で平均値とレンジを比較する。また偏りを確認して必要であれば対数あるいは指数化して分析を進める。
群による違いがはっきりあるかを確認するために母数の検定をする。
2変量解析
変数間の相関をとって、関連性を調べる。相関は相関係数および散布図で確認する。
テーブルを作成して目的変数の違いによりどのように従属変数の違いが出るかを明らかにする。違いをΧ二乗で検定する。
違いが明らかになればその理由およびその利用方法を考える。
G1で層別、G2-変数について観察レコードをカウントする。G1別にG2の観察レコードを件数でまとめて順位付けして1~3位について比較する。
G1で層別、G2-変数についてcutとしてヒストグラムを作成する。閾値で足切をして絶対件数と全体の割合を比較する。
回帰分析
回帰分析でモデルを考えてみる。
クラスタリング
クラスタリングで群の判別をしてみる。群を判別するときには学習データがあるかないかによる違いについても確認する。
クラスタ数を変えてみて実際の群と当てはまりのよい群の違いを見てみる。
学習データがあればPCAを利用して、群を分けることができる変数を作ってみる。
判別
判別分析で群の識別を明らかにしてみる。2変量解析やクラスタリングの結果をもとにして当てはまりのよいモデルを考える。
時系列
時系列で数値尺度のトレンドをみる。全体として挙がっているのか下がっているのか、変わらないのか。
層別にしてすべてが同じトレンドなのかを解析する。全体のトレンドに逆らっている層があれば重点的に調査をする。
線形回帰→coefficientでクラスタ→グループ識別に挑戦してみる→重回帰を利用して当てはまりのよいモデルを作る。
参考にする分析
- Iris
- PM25