科学の箱

科学・IT・登山の話題

書評 機械学習

データサイエンス超入門

投稿日:2014年1月8日 更新日:

シンプソンのパラドックス

レコメンドエンジン

  • コンテンツベースフィルタリング
  • 強調
    • アイテム
    • ユーザー

ビジネスにおけるデータ分析の手順

課題→ビジネスケース→仮説→分析→用途

データ分析の手順

  • データソース・前処理
  • データ移行・変数抽出・非構造化データの構造化・Exploratory
  • Descriptive・モデリング
  • 検証

PDCAサイクルへの展開

  • P: 展開
  • D:ビジネスへの利用
  • モデリング
  • 補正

ランディングページの分析

Mecabによる形態要素解析

マルコフ連鎖モンテカルロ

データ解析の分類

  • 探索的データ解析
  • 基準変数ありデータ解析

クラスタリングの問題

  • 多重共線性
  • 疑似相関←クラスタ内部ランキングにより避ける

おとしあな

  • データ garbage in → garbage out
  • シンプソンのパラドックス
  • 過適合
  • 特徴次元空間
  • ヒューズの現象

パラメトリック

  • パラメトリック: 正規分布を仮定
  • ノンパラメトリック: 母集団には何も仮定しない

回帰分析の手順

  • データからの予測
  • モデル
  • 関連する数値
  • 目標とする変数
    • 勝率・売上個数・在庫

ニューラルネットワーク

  • 教師なし
  • 教師あり
    • 過去 マシンラーニング
    • グループ クラスタリング

統計の分類

  • 探索・機械学習
  • 一般線形
  • 一般非線形

メタ情報

inarticle



メタ情報

inarticle



-書評, 機械学習
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

irisでPCAを実行し可視化

irisデータをPCAで2次元に分類して可視化してみる。 内容 準備及びデータの前処理 PCA プロット   準備及びデータの前処理 irisデータを読み込み、PCAを実行するための前処理を …

no image

実践ワークショップExcel徹底活用ビジネスデータ分析

メモ 相関係数の行列で傾向が似ている変数を探すことができる。例えば過去データとして商品A,B,C,D,E,Fがあるとする。今商品Xを開発し、マーケティング方法を決めたい。この時A~Fについてはすでに売 …

no image

Core Concept in Data Analysis – Week 2

1D analysis summary ヒストグラム ヒストグラムのタイプ:gaussian/power law 中心極限定理 確率分布 ブートストラップによる検証 gaussian 測定誤差もしくは …

no image

ウェブ分析をハンズオンで学ぶ

ウェブ分析の本を読んでもあまりあたまに入ってこない。実際に手を動かさないと、身につかないわけである。 ということでハンズオンで実践して見ることにした。ハンズオンで実践するに当たり必要なのはデータとツー …

no image

手書き数字のデータセットについてイメージを確認

sklearnには手書き数字のデータが用意されている。このデータはイメージの分類モデルを学ぶためによいスタートである。今回はこのバイナリデータを読み込み、イメージとして確認する。 内容 load_di …

2014年1月
« 12月   2月 »
 12345
6789101112
13141516171819
20212223242526
2728293031  

side bar top



アーカイブ

カテゴリー