科学の箱

科学・IT・登山の話題

機械学習

データ分析のメモ

投稿日:2014年7月18日 更新日:

一変量解析

各変数についてsummaryをとり、平均値、分散を確認する。変数について尺度を確認してどのように分析を進めるかを考える。

度数分布を作成して値の分布をみてみる。正規分布の値であればいろいろな統計分析ができる。数値データとしてもあらかじめ取得しておく。

群により分布の違いを確認する(層別)。箱ひげ図で平均値とレンジを比較する。また偏りを確認して必要であれば対数あるいは指数化して分析を進める。

群による違いがはっきりあるかを確認するために母数の検定をする。

2変量解析

変数間の相関をとって、関連性を調べる。相関は相関係数および散布図で確認する。

テーブルを作成して目的変数の違いによりどのように従属変数の違いが出るかを明らかにする。違いをΧ二乗で検定する。

違いが明らかになればその理由およびその利用方法を考える。

G1で層別、G2-変数について観察レコードをカウントする。G1別にG2の観察レコードを件数でまとめて順位付けして1~3位について比較する。

G1で層別、G2-変数についてcutとしてヒストグラムを作成する。閾値で足切をして絶対件数と全体の割合を比較する。

回帰分析

回帰分析でモデルを考えてみる。

クラスタリング

クラスタリングで群の判別をしてみる。群を判別するときには学習データがあるかないかによる違いについても確認する。

クラスタ数を変えてみて実際の群と当てはまりのよい群の違いを見てみる。

学習データがあればPCAを利用して、群を分けることができる変数を作ってみる。

判別

判別分析で群の識別を明らかにしてみる。2変量解析やクラスタリングの結果をもとにして当てはまりのよいモデルを考える。

時系列

時系列で数値尺度のトレンドをみる。全体として挙がっているのか下がっているのか、変わらないのか。

層別にしてすべてが同じトレンドなのかを解析する。全体のトレンドに逆らっている層があれば重点的に調査をする。

線形回帰→coefficientでクラスタ→グループ識別に挑戦してみる→重回帰を利用して当てはまりのよいモデルを作る。

参考にする分析

  • Iris
  • PM25

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

dataanalysis-002-week2

Structure of Data Analysis 質問を定義する 理想的なデータセットの定義 アクセスできるデータの検索 データの取得 クレンジング Exploratory 統計的予測・モデリング …

no image

仕事で始める機械学習 – 2.機械学習で何ができるか – 分類 – パーセプトロン

パーセプトロン 判別式 それぞれのデータに対して重みづけした値 ヒンジ損失 パーセプトロンの損失関数をヒンジ損失という。パーセプトロン基準とも呼ばれる。 sum(wx) 状態 ラベル label*su …

no image

手書き数字のデータセットについてイメージを確認

sklearnには手書き数字のデータが用意されている。このデータはイメージの分類モデルを学ぶためによいスタートである。今回はこのバイナリデータを読み込み、イメージとして確認する。 内容 load_di …

no image

線形回帰と最急降下法

線形回帰 世の中の様々な出来事(y)はある事象(x)に対して比例することが多い。もちろん厳密に比例するわけではなくずれは生じる。しかしこのxとyが比例すると仮定した場合、中学校で習った一次式でこの関係 …

no image

dataanalysis-002-week3

exploratory analysis グラフの目的 データのおおよそを理解する パターンを探す モデリングを探す デバッグ コミュニケーション boxplot 値のレンジを確認する 他の値とレンジ …

2014年7月
« 6月   8月 »
 123456
78910111213
14151617181920
21222324252627
28293031  

side bar top



アーカイブ

カテゴリー