科学の箱

科学・IT・登山の話題

書評 機械学習

データサイエンス超入門

投稿日:2014年1月8日 更新日:

シンプソンのパラドックス

レコメンドエンジン

  • コンテンツベースフィルタリング
  • 強調
    • アイテム
    • ユーザー

ビジネスにおけるデータ分析の手順

課題→ビジネスケース→仮説→分析→用途

データ分析の手順

  • データソース・前処理
  • データ移行・変数抽出・非構造化データの構造化・Exploratory
  • Descriptive・モデリング
  • 検証

PDCAサイクルへの展開

  • P: 展開
  • D:ビジネスへの利用
  • モデリング
  • 補正

ランディングページの分析

Mecabによる形態要素解析

マルコフ連鎖モンテカルロ

データ解析の分類

  • 探索的データ解析
  • 基準変数ありデータ解析

クラスタリングの問題

  • 多重共線性
  • 疑似相関←クラスタ内部ランキングにより避ける

おとしあな

  • データ garbage in → garbage out
  • シンプソンのパラドックス
  • 過適合
  • 特徴次元空間
  • ヒューズの現象

パラメトリック

  • パラメトリック: 正規分布を仮定
  • ノンパラメトリック: 母集団には何も仮定しない

回帰分析の手順

  • データからの予測
  • モデル
  • 関連する数値
  • 目標とする変数
    • 勝率・売上個数・在庫

ニューラルネットワーク

  • 教師なし
  • 教師あり
    • 過去 マシンラーニング
    • グループ クラスタリング

統計の分類

  • 探索・機械学習
  • 一般線形
  • 一般非線形

メタ情報

inarticle



メタ情報

inarticle



-書評, 機械学習
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

logistic regressionでの失敗

ロジスティック回帰でデータを分析しようとしたところうまくいかず。どうにもこうにもおかしな値が出るし、他の回帰分析との結果と明らか矛盾している。よくわからないのでとりあえずirisデータを使って手順を追 …

no image

統計数字を読み解くセンス

統計数字を読み解くセンス 当確はなぜすぐにわかるのか? データ分布に現れる法則 ベンフォードの法則 ジップの法則 パレートの法則 ローレンツ曲線とジニ計数 偏差値 異なった観察対象に対する評価を平均値 …

no image

pythonのデータ分析ライブラリで遊んでみる。

こちらを参考にしてPythonのデータ分析用のライブラリをそろえてみた。 まずはお手軽にヒストグラムを書いてみる。コマンドラインからipythonを立ち上げる。 ipython –pylab &#8 …

no image

線形回帰とリッジ回帰とラッソ回帰の違い

用語 線形回帰 データから平均二乗誤差を最低にするパラメータΘを求めて、直線で回帰すること $$ y = Θ_0 + Θ_1 \times x $$ コスト関数 損失関数とも呼ばれる。実際のデータと予 …

no image

Pythonではじめる機械学習 – Chap02

2.1 Classification and Regression 分類問題の目的 クラスがどのようなラベルであるかを予測 分類問題 2つのクラスに分類するバイナリクラシフィケーション 例)Yes/N …

2014年1月
« 12月   2月 »
 12345
6789101112
13141516171819
20212223242526
2728293031  

side bar top



アーカイブ

カテゴリー