科学の箱

科学・IT・登山の話題

書評 機械学習

データサイエンス超入門

投稿日:2014年1月8日 更新日:

シンプソンのパラドックス

レコメンドエンジン

  • コンテンツベースフィルタリング
  • 強調
    • アイテム
    • ユーザー

ビジネスにおけるデータ分析の手順

課題→ビジネスケース→仮説→分析→用途

データ分析の手順

  • データソース・前処理
  • データ移行・変数抽出・非構造化データの構造化・Exploratory
  • Descriptive・モデリング
  • 検証

PDCAサイクルへの展開

  • P: 展開
  • D:ビジネスへの利用
  • モデリング
  • 補正

ランディングページの分析

Mecabによる形態要素解析

マルコフ連鎖モンテカルロ

データ解析の分類

  • 探索的データ解析
  • 基準変数ありデータ解析

クラスタリングの問題

  • 多重共線性
  • 疑似相関←クラスタ内部ランキングにより避ける

おとしあな

  • データ garbage in → garbage out
  • シンプソンのパラドックス
  • 過適合
  • 特徴次元空間
  • ヒューズの現象

パラメトリック

  • パラメトリック: 正規分布を仮定
  • ノンパラメトリック: 母集団には何も仮定しない

回帰分析の手順

  • データからの予測
  • モデル
  • 関連する数値
  • 目標とする変数
    • 勝率・売上個数・在庫

ニューラルネットワーク

  • 教師なし
  • 教師あり
    • 過去 マシンラーニング
    • グループ クラスタリング

統計の分類

  • 探索・機械学習
  • 一般線形
  • 一般非線形

メタ情報

inarticle



メタ情報

inarticle



-書評, 機械学習
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

SIGNATE お弁当の需要予測-2

データの内容を確認する。 期間を調べる d_train[‘datetime’].min() ‘ ‘2013-11-18’ d_train[‘datetime’].max() ‘ ‘2014-9-9’ …

no image

仕事で始める機械学習 – 3.学習結果を評価しよう – 指標

主な指標 モデル構築後に確認する主な指標は4つある。 正解率 適合率 再現率 F値 正解率 $$ 正解率 = \frac{TP + TN}{TP+FP+TN+FN} $$ 正解率は全データ数に対する正 …

no image

会社を変える分析の力

ユーザに関する問題 不確実性 過剰期待 事前期待 分析モデルの利用 パターン 変数の数 分析の利用 予測 判別 グループ 検知 最適化 発見 探索 データ分析の必要性 なぜ誤差がでるのか Costは …

no image

Pythonではじめる機械学習 – KDE

カーネル密度分布とは カーネル密度分布とは一言でいうと滑らかなヒストグラムであり曲線になっている。標本データから確率密度を計算することにより標本がない部分についても確率密度を計算できる。 例えば犯罪の …

no image

条件付きでレコードを取得する

データフレームでは条件付きでレコードを取得できる。 以下のようなフォーマットのデータフレームを考える id name height vector1 <- c(1, 2, 3, 4, 5) vec …

2014年1月
« 12月   2月 »
 12345
6789101112
13141516171819
20212223242526
2728293031  

side bar top



アーカイブ

カテゴリー