科学の箱

科学・IT・登山の話題

書評 機械学習

データサイエンス超入門

投稿日:2014年1月8日 更新日:

シンプソンのパラドックス

レコメンドエンジン

  • コンテンツベースフィルタリング
  • 強調
    • アイテム
    • ユーザー

ビジネスにおけるデータ分析の手順

課題→ビジネスケース→仮説→分析→用途

データ分析の手順

  • データソース・前処理
  • データ移行・変数抽出・非構造化データの構造化・Exploratory
  • Descriptive・モデリング
  • 検証

PDCAサイクルへの展開

  • P: 展開
  • D:ビジネスへの利用
  • モデリング
  • 補正

ランディングページの分析

Mecabによる形態要素解析

マルコフ連鎖モンテカルロ

データ解析の分類

  • 探索的データ解析
  • 基準変数ありデータ解析

クラスタリングの問題

  • 多重共線性
  • 疑似相関←クラスタ内部ランキングにより避ける

おとしあな

  • データ garbage in → garbage out
  • シンプソンのパラドックス
  • 過適合
  • 特徴次元空間
  • ヒューズの現象

パラメトリック

  • パラメトリック: 正規分布を仮定
  • ノンパラメトリック: 母集団には何も仮定しない

回帰分析の手順

  • データからの予測
  • モデル
  • 関連する数値
  • 目標とする変数
    • 勝率・売上個数・在庫

ニューラルネットワーク

  • 教師なし
  • 教師あり
    • 過去 マシンラーニング
    • グループ クラスタリング

統計の分類

  • 探索・機械学習
  • 一般線形
  • 一般非線形

メタ情報

inarticle



メタ情報

inarticle



-書評, 機械学習
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Pythonではじめる機械学習 – k-Means

k-Meansの概要 k-Meansは教師なし学習の一つであり、あらかじめ指定された数にグループを分ける。 例えば今身長である程度まとまって席に座っている生徒を考えます。k-Meansでは最初に分ける …

no image

dataanalysis-002-week6

prediction study motivation 手順 データの選択 エラーの測定 デザイン データの分割 トレーニング テスト 検証 true false positives true pos …

no image

スパムメールの判別に使うベイズ定理についてまとめる

分類問題 スパムメールを判別するような問題は一般的に「分類問題」として機械学習では取り扱う。分類問題とはいまある「物」や「発生した事柄」を確率的に分類する。この「確率的」という言葉がみそであり、固定さ …

no image

Pythonではじめる機械学習 – KDE

カーネル密度分布とは カーネル密度分布とは一言でいうと滑らかなヒストグラムであり曲線になっている。標本データから確率密度を計算することにより標本がない部分についても確率密度を計算できる。 例えば犯罪の …

no image

ウェブ分析をハンズオンで学ぶ

ウェブ分析の本を読んでもあまりあたまに入ってこない。実際に手を動かさないと、身につかないわけである。 ということでハンズオンで実践して見ることにした。ハンズオンで実践するに当たり必要なのはデータとツー …

2014年1月
« 12月   2月 »
 12345
6789101112
13141516171819
20212223242526
2728293031  

side bar top



アーカイブ

カテゴリー