科学の箱

科学・IT・登山の話題

書評 機械学習

データサイエンス超入門

投稿日:2014年1月8日 更新日:

シンプソンのパラドックス

レコメンドエンジン

  • コンテンツベースフィルタリング
  • 強調
    • アイテム
    • ユーザー

ビジネスにおけるデータ分析の手順

課題→ビジネスケース→仮説→分析→用途

データ分析の手順

  • データソース・前処理
  • データ移行・変数抽出・非構造化データの構造化・Exploratory
  • Descriptive・モデリング
  • 検証

PDCAサイクルへの展開

  • P: 展開
  • D:ビジネスへの利用
  • モデリング
  • 補正

ランディングページの分析

Mecabによる形態要素解析

マルコフ連鎖モンテカルロ

データ解析の分類

  • 探索的データ解析
  • 基準変数ありデータ解析

クラスタリングの問題

  • 多重共線性
  • 疑似相関←クラスタ内部ランキングにより避ける

おとしあな

  • データ garbage in → garbage out
  • シンプソンのパラドックス
  • 過適合
  • 特徴次元空間
  • ヒューズの現象

パラメトリック

  • パラメトリック: 正規分布を仮定
  • ノンパラメトリック: 母集団には何も仮定しない

回帰分析の手順

  • データからの予測
  • モデル
  • 関連する数値
  • 目標とする変数
    • 勝率・売上個数・在庫

ニューラルネットワーク

  • 教師なし
  • 教師あり
    • 過去 マシンラーニング
    • グループ クラスタリング

統計の分類

  • 探索・機械学習
  • 一般線形
  • 一般非線形

メタ情報

inarticle



メタ情報

inarticle



-書評, 機械学習
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

データ分析の基本と業務

開発生産性は調和平均で計算する。 安全性の在庫の計算には正規分布を利用できる。 標準偏差=5であることを利用すると何が言えるか。 Z=1.96で95%をカバーする。 よって 5 x 1.96でほぼ10 …

no image

DictVectorizerを使ってカテゴリデータについて特徴抽出をする

都市における温度データを考える。 measure = [ {‘city’: ‘Dubai’, ‘temperature’: 33.}, {‘city’: ‘London’, ‘temperature’ …

no image

K近傍法と決定木の比較

One of the most comprehensible non-parametric methods is k-nearest-neighbors: find the points which …

no image

実践ワークショップExcel徹底活用ビジネスデータ分析

メモ 相関係数の行列で傾向が似ている変数を探すことができる。例えば過去データとして商品A,B,C,D,E,Fがあるとする。今商品Xを開発し、マーケティング方法を決めたい。この時A~Fについてはすでに売 …

no image

Pythonではじめる機械学習 – Chap03

3.1 Types of Unsupervised Learning 教師なし学習の例 次元削減: 重要な特徴量のみを使って元のデータを表現する トピック抽出: データを構成する部品を見つける クラス …

2014年1月
« 12月   2月 »
 12345
6789101112
13141516171819
20212223242526
2728293031  

side bar top



アーカイブ

カテゴリー