科学の箱

科学・IT・登山の話題

機械学習

Core Concept in Data Analysis – Week 4

投稿日:2014年6月6日 更新日:

  • Contingency Table : 分割表
  • Nominal : 名目 (カテゴリカル)
  • Taxon : 分類
  • Marginal : 周辺
  • Conditional Probability : 条件付き確率
  • Quetlet index : ケトレー インデックス, BMIをさすことも多いが、ここではもうすこし講義

独立の意味

  • 独立であるときには P(A∧B) = P(A) ∧ P(B)
  • P(A∧B) > P(A) ∧ P(B)であるならば、AとBが同時に起きている(共起)しやすいので正の相関があるといえる。

Χ二乗

  • 共起の確率と個々の事象の発生確率の差を求めて、個々の発生確率の積で割ると、割合が計算できる。
  • 独立ならばΧ二乗値は0に近くなる。また個々の事象の発生確率が極端に小さいと、Χ二乗値は大きくなる。
  • Χ二乗分布の横軸がΧ二乗値
  • ピアソンΧ二乗値は相関を数字で表す→相関係数は量的尺度で使う。
  • 自由度は(列数-1) x (行数 -1)

Χ二乗のVisualize

  • High Positive  or High Negative
  • r, q or pr(ピアソン、ケトレー、?)

 

メタ情報

inarticle



メタ情報

inarticle



-機械学習
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Core Concept in Data Analysis – Week 5

予測の分析 関連性を分析する モデルを明らかにする。 パラメータを推測する。 テストする。 予測が将来になると難しい→環境が変わってしまうため。 correlation structure (質的尺度 …

no image

dataanalysis-002-week2

Structure of Data Analysis 質問を定義する 理想的なデータセットの定義 アクセスできるデータの検索 データの取得 クレンジング Exploratory 統計的予測・モデリング …

no image

売り上げデータの分析

利益 = 売り上げ – コスト 売り上げ = 客数 x 客単価 コスト ≒ 人件費 + 廃棄コスト 客数 客単価 = Σ 品物i x 購入数 客数を増やす方法 来てもらう方法 安売りキャン …

no image

K近傍法と決定木の比較

One of the most comprehensible non-parametric methods is k-nearest-neighbors: find the points which …

no image

回帰と分類の違い

回帰と分類は両方とも”予測”問題である。予測とは従属変数から目的変数を明らかにする。この目的変数の種類により回帰と分類に分けられる。 回帰では連続した数値を予測する。例えば株価 …

2014年6月
« 5月   7月 »
 1
2345678
9101112131415
16171819202122
23242526272829
30  

side bar top



アーカイブ

カテゴリー