科学の箱

科学・IT・登山の話題

機械学習

データ分析のメモ

投稿日:2014年7月18日 更新日:

一変量解析

各変数についてsummaryをとり、平均値、分散を確認する。変数について尺度を確認してどのように分析を進めるかを考える。

度数分布を作成して値の分布をみてみる。正規分布の値であればいろいろな統計分析ができる。数値データとしてもあらかじめ取得しておく。

群により分布の違いを確認する(層別)。箱ひげ図で平均値とレンジを比較する。また偏りを確認して必要であれば対数あるいは指数化して分析を進める。

群による違いがはっきりあるかを確認するために母数の検定をする。

2変量解析

変数間の相関をとって、関連性を調べる。相関は相関係数および散布図で確認する。

テーブルを作成して目的変数の違いによりどのように従属変数の違いが出るかを明らかにする。違いをΧ二乗で検定する。

違いが明らかになればその理由およびその利用方法を考える。

G1で層別、G2-変数について観察レコードをカウントする。G1別にG2の観察レコードを件数でまとめて順位付けして1~3位について比較する。

G1で層別、G2-変数についてcutとしてヒストグラムを作成する。閾値で足切をして絶対件数と全体の割合を比較する。

回帰分析

回帰分析でモデルを考えてみる。

クラスタリング

クラスタリングで群の判別をしてみる。群を判別するときには学習データがあるかないかによる違いについても確認する。

クラスタ数を変えてみて実際の群と当てはまりのよい群の違いを見てみる。

学習データがあればPCAを利用して、群を分けることができる変数を作ってみる。

判別

判別分析で群の識別を明らかにしてみる。2変量解析やクラスタリングの結果をもとにして当てはまりのよいモデルを考える。

時系列

時系列で数値尺度のトレンドをみる。全体として挙がっているのか下がっているのか、変わらないのか。

層別にしてすべてが同じトレンドなのかを解析する。全体のトレンドに逆らっている層があれば重点的に調査をする。

線形回帰→coefficientでクラスタ→グループ識別に挑戦してみる→重回帰を利用して当てはまりのよいモデルを作る。

参考にする分析

  • Iris
  • PM25

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

条件付きでレコードを取得する

データフレームでは条件付きでレコードを取得できる。 以下のようなフォーマットのデータフレームを考える id name height vector1 <- c(1, 2, 3, 4, 5) vec …

no image

線形回帰とリッジ回帰とラッソ回帰の違い

用語 線形回帰 データから平均二乗誤差を最低にするパラメータΘを求めて、直線で回帰すること $$ y = Θ_0 + Θ_1 \times x $$ コスト関数 損失関数とも呼ばれる。実際のデータと予 …

no image

仕事で始める機械学習 – 1. 機械学習プロジェクトの始め方

機械学習プロジェクトの流れ 問題の定式化 機械学習を利用しない方法 システム設計 アルゴリズム選定 特徴量・教師データ・ログの設計 前処理 学習・パラメータチューニング システム統合 問題の定式化 目 …

no image

SVMでグリッドサーチ

IrisデータについてSVMで分類をしてみた。さて、今回はSVMモデルのパラメータをいじってみてより精度が高いモデルを作ってみる。 すべての学習モデルはハイパーパラメータと呼ばれる学習モデルに影響を与 …

no image

回帰と分類の違い

回帰と分類は両方とも”予測”問題である。予測とは従属変数から目的変数を明らかにする。この目的変数の種類により回帰と分類に分けられる。 回帰では連続した数値を予測する。例えば株価 …

2014年7月
« 6月   8月 »
 123456
78910111213
14151617181920
21222324252627
28293031  

side bar top



アーカイブ

カテゴリー