科学の箱

科学・IT・登山の話題

機械学習

Core Concept in Data Analysis – Week 2

投稿日:

1D analysis summary

  • ヒストグラム
  • ヒストグラムのタイプ:gaussian/power law
  • 中心極限定理
  • 確率分布
  • ブートストラップによる検証

gaussian

  • 測定誤差もしくはそれに似た影響があるときに結果の値にランダムに作用する。

power

  • 人による努力はこの形状をとることがおおい。ロングテールと似ている。
  • マシュー効果 http://ideas.time.com/2012/09/26/why-third-grade-is-so-important-the-matthew-effect/
  • この形状になるためにはあらかじめ選択された値が次に選択されるときに影響があることを意味する。

統計とデータ分析の違い

  • 統計:  ランダムな変数, 確率分布, モデルのパラメータを明らかにする。
  • データ分析: 横軸が観察、縦軸が観察の結果, テーブル, パターン→知識

データの特徴をつかむ

  • 真ん中と広がり

ミンコフスキー距離 https://sites.google.com/site/shunsnotes/lei-shi-du-ji-suan-calculation-of-degree-of-similarity/minkofusuki-ju-li-minkowski-distance

 

ブートストラップによる検証 <-> 正規分布による検証

メタ情報

inarticle



メタ情報

inarticle



-機械学習
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Pythonではじめる機械学習 – Chap02

2.1 Classification and Regression 分類問題の目的 クラスがどのようなラベルであるかを予測 分類問題 2つのクラスに分類するバイナリクラシフィケーション 例)Yes/N …

no image

売り上げデータの分析

利益 = 売り上げ – コスト 売り上げ = 客数 x 客単価 コスト ≒ 人件費 + 廃棄コスト 客数 客単価 = Σ 品物i x 購入数 客数を増やす方法 来てもらう方法 安売りキャン …

no image

Pythonではじめる機械学習 – 多様体学習

多様体学習 次元削減に利用できる手法として主成分分析がある。これは柔軟であり、すぐに実装可能な次元削減アルゴリズムの一つである。しかし一つだけ問題がある。それは主成分分析に適用できるデータは線形のみで …

no image

SIGNATE お弁当の需要予測-1

SIGNATEのコンペであるお弁当の需要予測をpythonで分析 データは下記から取得できる https://signate.jp/competitions/24 ライブラリ読み込み importnu …

no image

Pythonではじめる機械学習 – Chap04

4.4 Binning, Discretization, Linear Models, and Trees ビン化のメリット 決定木でビン化するメリットはあまりない 決定木はモデルの中で一つの特徴につ …

2014年6月
« 5月   7月 »
 1
2345678
9101112131415
16171819202122
23242526272829
30  

side bar top



アーカイブ

カテゴリー