科学・IＴ・登山の話題

書評機械学習

データサイエンス超入門

投稿日：2014年1月8日更新日：2014年6月6日

シンプソンのパラドックス

レコメンドエンジン

コンテンツベースフィルタリング
強調
- アイテム
- ユーザー

ビジネスにおけるデータ分析の手順

課題→ビジネスケース→仮説→分析→用途

データ分析の手順

データソース・前処理
データ移行・変数抽出・非構造化データの構造化・Exploratory
Descriptive・モデリング
検証

PDCAサイクルへの展開

P: 展開
D:ビジネスへの利用
モデリング
補正

ランディングページの分析

Mecabによる形態要素解析

マルコフ連鎖モンテカルロ

データ解析の分類

探索的データ解析
基準変数ありデータ解析

クラスタリングの問題

多重共線性
疑似相関←クラスタ内部ランキングにより避ける

おとしあな

データ garbage in → garbage out
シンプソンのパラドックス
過適合
特徴次元空間
ヒューズの現象

パラメトリック

パラメトリック: 正規分布を仮定
ノンパラメトリック: 母集団には何も仮定しない

回帰分析の手順

データからの予測
モデル
関連する数値
目標とする変数
- 勝率・売上個数・在庫

ニューラルネットワーク

教師なし
教師あり
- 過去　マシンラーニング
- グループ　クラスタリング

統計の分類

探索・機械学習
一般線形
一般非線形

Related posts:

Statistical Reasoning for Public Health

tracertの分析

SVMでグリッドサーチ

-書評, 機械学習
-book

執筆者：admin

comment コメントをキャンセル

関連記事

: Pythonではじめる機械学習 – k-Means

k-Meansの概要 k-Meansは教師なし学習の一つであり、あらかじめ指定された数にグループを分ける。例えば今身長である程度まとまって席に座っている生徒を考えます。k-Meansでは最初に分ける …

: dataanalysis-002-week6

prediction study motivation 手順データの選択エラーの測定デザインデータの分割トレーニングテスト検証 true false positives true pos …

: スパムメールの判別に使うベイズ定理についてまとめる

分類問題スパムメールを判別するような問題は一般的に「分類問題」として機械学習では取り扱う。分類問題とはいまある「物」や「発生した事柄」を確率的に分類する。この「確率的」という言葉がみそであり、固定さ …

: Pythonではじめる機械学習 – KDE

カーネル密度分布とはカーネル密度分布とは一言でいうと滑らかなヒストグラムであり曲線になっている。標本データから確率密度を計算することにより標本がない部分についても確率密度を計算できる。例えば犯罪の …

: ウェブ分析をハンズオンで学ぶ

ウェブ分析の本を読んでもあまりあたまに入ってこない。実際に手を動かさないと、身につかないわけである。ということでハンズオンで実践して見ることにした。ハンズオンで実践するに当たり必要なのはデータとツー …

PREV: dataanalysis-002-week4
NEXT: 会社を変える分析の力

GIMPでForeground color pickerが正しくない色をピックアップするときの対応方法 2021年9月7日
lerpとslerpの違い 2021年8月5日
シェーダーとは 2021年8月3日
Unityの座標系についてメモ 2021年7月1日
ALLとREMOVEFILTERSの違い 2021年6月28日