科学の箱

科学・IT・登山の話題

機械学習

データ分析のメモ

投稿日:2014年7月18日 更新日:

一変量解析

各変数についてsummaryをとり、平均値、分散を確認する。変数について尺度を確認してどのように分析を進めるかを考える。

度数分布を作成して値の分布をみてみる。正規分布の値であればいろいろな統計分析ができる。数値データとしてもあらかじめ取得しておく。

群により分布の違いを確認する(層別)。箱ひげ図で平均値とレンジを比較する。また偏りを確認して必要であれば対数あるいは指数化して分析を進める。

群による違いがはっきりあるかを確認するために母数の検定をする。

2変量解析

変数間の相関をとって、関連性を調べる。相関は相関係数および散布図で確認する。

テーブルを作成して目的変数の違いによりどのように従属変数の違いが出るかを明らかにする。違いをΧ二乗で検定する。

違いが明らかになればその理由およびその利用方法を考える。

G1で層別、G2-変数について観察レコードをカウントする。G1別にG2の観察レコードを件数でまとめて順位付けして1~3位について比較する。

G1で層別、G2-変数についてcutとしてヒストグラムを作成する。閾値で足切をして絶対件数と全体の割合を比較する。

回帰分析

回帰分析でモデルを考えてみる。

クラスタリング

クラスタリングで群の判別をしてみる。群を判別するときには学習データがあるかないかによる違いについても確認する。

クラスタ数を変えてみて実際の群と当てはまりのよい群の違いを見てみる。

学習データがあればPCAを利用して、群を分けることができる変数を作ってみる。

判別

判別分析で群の識別を明らかにしてみる。2変量解析やクラスタリングの結果をもとにして当てはまりのよいモデルを考える。

時系列

時系列で数値尺度のトレンドをみる。全体として挙がっているのか下がっているのか、変わらないのか。

層別にしてすべてが同じトレンドなのかを解析する。全体のトレンドに逆らっている層があれば重点的に調査をする。

線形回帰→coefficientでクラスタ→グループ識別に挑戦してみる→重回帰を利用して当てはまりのよいモデルを作る。

参考にする分析

  • Iris
  • PM25

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

判別式

判別式の手順 散布図をプロットしてみてグループに分けることができるかを検討する 判別式のモデル(線形判別、マハラノビスなど)を検討する データを読み込み判別式テンプレートを作成する 判別式を作成する …

no image

前向き研究と後ろ向き研究

前向き研究と後ろ向き研究は疫学における用語である。 前向き研究で使われる研究手法にはコホートや無作為比較対照研究、ロジスティック分析がある。これらの研究ではサンプルをリスクファクター(危険要因)のある …

no image

Core Concept in Data Analysis – Week 4

Contingency Table : 分割表 Nominal : 名目 (カテゴリカル) Taxon : 分類 Marginal : 周辺 Conditional Probability : 条件付 …

no image

dataanalysis-002-week6

prediction study motivation 手順 データの選択 エラーの測定 デザイン データの分割 トレーニング テスト 検証 true false positives true pos …

no image

kaggle Titanic Tutorial – 3

DecitionTreeのパラメータを調整する。 まずはMaxDepthから from sklearn.model_selection import LeaveOneOut from sklearn. …

2014年7月
« 6月   8月 »
 123456
78910111213
14151617181920
21222324252627
28293031  

side bar top



アーカイブ

カテゴリー