科学の箱

科学・IT・登山の話題

機械学習

Core Concept in Data Analysis – Week 4

投稿日:2014年6月6日 更新日:

  • Contingency Table : 分割表
  • Nominal : 名目 (カテゴリカル)
  • Taxon : 分類
  • Marginal : 周辺
  • Conditional Probability : 条件付き確率
  • Quetlet index : ケトレー インデックス, BMIをさすことも多いが、ここではもうすこし講義

独立の意味

  • 独立であるときには P(A∧B) = P(A) ∧ P(B)
  • P(A∧B) > P(A) ∧ P(B)であるならば、AとBが同時に起きている(共起)しやすいので正の相関があるといえる。

Χ二乗

  • 共起の確率と個々の事象の発生確率の差を求めて、個々の発生確率の積で割ると、割合が計算できる。
  • 独立ならばΧ二乗値は0に近くなる。また個々の事象の発生確率が極端に小さいと、Χ二乗値は大きくなる。
  • Χ二乗分布の横軸がΧ二乗値
  • ピアソンΧ二乗値は相関を数字で表す→相関係数は量的尺度で使う。
  • 自由度は(列数-1) x (行数 -1)

Χ二乗のVisualize

  • High Positive  or High Negative
  • r, q or pr(ピアソン、ケトレー、?)

 

メタ情報

inarticle



メタ情報

inarticle



-機械学習
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

仕事で始める機械学習 – 4章 システムに機械学習を組み込む

機械学習アーキテクチャ 学習方法としては3つのパターンがある バッチ処理で一括学習 バッチ処理で逐次学習 リアルタイムで逐次学習 学習と予測パターンの提供方法としては4つのパターンがある バッチ学習- …

no image

スパムメールの判別に使うベイズ定理についてまとめる

分類問題 スパムメールを判別するような問題は一般的に「分類問題」として機械学習では取り扱う。分類問題とはいまある「物」や「発生した事柄」を確率的に分類する。この「確率的」という言葉がみそであり、固定さ …

no image

多変量解析

多変量解析の分類 回帰分析 ロジスティック分析 判別分析 主成分分析 因子分析 共分散 クラスタリング 共分散 Sxy = Σ(Xi – X~)(Yi – Y~) / n 共分 …

no image

データ分析のメモ

一変量解析 各変数についてsummaryをとり、平均値、分散を確認する。変数について尺度を確認してどのように分析を進めるかを考える。 度数分布を作成して値の分布をみてみる。正規分布の値であればいろいろ …

no image

ジニ係数(再掲)

ジニ係数について修正した。とりあえずコード。 revenue<-read.csv(file=”data.csv”, head=TRUE) revenue$TotalRevenues_n < …

2014年6月
« 5月   7月 »
 1
2345678
9101112131415
16171819202122
23242526272829
30  

side bar top



アーカイブ

カテゴリー