科学・IＴ・登山の話題

書評機械学習

データサイエンス超入門

投稿日：2014年1月8日更新日：2014年6月6日

シンプソンのパラドックス

レコメンドエンジン

コンテンツベースフィルタリング
強調
- アイテム
- ユーザー

ビジネスにおけるデータ分析の手順

課題→ビジネスケース→仮説→分析→用途

データ分析の手順

データソース・前処理
データ移行・変数抽出・非構造化データの構造化・Exploratory
Descriptive・モデリング
検証

PDCAサイクルへの展開

P: 展開
D:ビジネスへの利用
モデリング
補正

ランディングページの分析

Mecabによる形態要素解析

マルコフ連鎖モンテカルロ

データ解析の分類

探索的データ解析
基準変数ありデータ解析

クラスタリングの問題

多重共線性
疑似相関←クラスタ内部ランキングにより避ける

おとしあな

データ garbage in → garbage out
シンプソンのパラドックス
過適合
特徴次元空間
ヒューズの現象

パラメトリック

パラメトリック: 正規分布を仮定
ノンパラメトリック: 母集団には何も仮定しない

回帰分析の手順

データからの予測
モデル
関連する数値
目標とする変数
- 勝率・売上個数・在庫

ニューラルネットワーク

教師なし
教師あり
- 過去　マシンラーニング
- グループ　クラスタリング

統計の分類

探索・機械学習
一般線形
一般非線形

Related posts:

dataanalysis-002-week6

モンベルダウンジャケットについて売れ筋商品を分析してみる。

SIGNATE お弁当の需要予測-2

-書評, 機械学習
-book

執筆者：admin

comment コメントをキャンセル

関連記事

: irisでPCAを実行し可視化

irisデータをPCAで2次元に分類して可視化してみる。内容準備及びデータの前処理 PCA プロット準備及びデータの前処理 irisデータを読み込み、PCAを実行するための前処理を …

: 実践ワークショップExcel徹底活用ビジネスデータ分析

メモ相関係数の行列で傾向が似ている変数を探すことができる。例えば過去データとして商品A,B,C,D,E,Fがあるとする。今商品Xを開発し、マーケティング方法を決めたい。この時A～Fについてはすでに売 …

: Core Concept in Data Analysis – Week 2

1D analysis summary ヒストグラムヒストグラムのタイプ：gaussian/power law 中心極限定理確率分布ブートストラップによる検証 gaussian 測定誤差もしくは …

: ウェブ分析をハンズオンで学ぶ

ウェブ分析の本を読んでもあまりあたまに入ってこない。実際に手を動かさないと、身につかないわけである。ということでハンズオンで実践して見ることにした。ハンズオンで実践するに当たり必要なのはデータとツー …

: 手書き数字のデータセットについてイメージを確認

sklearnには手書き数字のデータが用意されている。このデータはイメージの分類モデルを学ぶためによいスタートである。今回はこのバイナリデータを読み込み、イメージとして確認する。内容 load_di …

PREV: dataanalysis-002-week4
NEXT: 会社を変える分析の力

GIMPでForeground color pickerが正しくない色をピックアップするときの対応方法 2021年9月7日
lerpとslerpの違い 2021年8月5日
シェーダーとは 2021年8月3日
Unityの座標系についてメモ 2021年7月1日
ALLとREMOVEFILTERSの違い 2021年6月28日