科学・IＴ・登山の話題

書評機械学習

データサイエンス超入門

投稿日：2014年1月8日更新日：2014年6月6日

シンプソンのパラドックス

レコメンドエンジン

コンテンツベースフィルタリング
強調
- アイテム
- ユーザー

ビジネスにおけるデータ分析の手順

課題→ビジネスケース→仮説→分析→用途

データ分析の手順

データソース・前処理
データ移行・変数抽出・非構造化データの構造化・Exploratory
Descriptive・モデリング
検証

PDCAサイクルへの展開

P: 展開
D:ビジネスへの利用
モデリング
補正

ランディングページの分析

Mecabによる形態要素解析

マルコフ連鎖モンテカルロ

データ解析の分類

探索的データ解析
基準変数ありデータ解析

クラスタリングの問題

多重共線性
疑似相関←クラスタ内部ランキングにより避ける

おとしあな

データ garbage in → garbage out
シンプソンのパラドックス
過適合
特徴次元空間
ヒューズの現象

パラメトリック

パラメトリック: 正規分布を仮定
ノンパラメトリック: 母集団には何も仮定しない

回帰分析の手順

データからの予測
モデル
関連する数値
目標とする変数
- 勝率・売上個数・在庫

ニューラルネットワーク

教師なし
教師あり
- 過去　マシンラーニング
- グループ　クラスタリング

統計の分類

探索・機械学習
一般線形
一般非線形

Related posts:

前向き研究と後ろ向き研究

Excelによる単回帰分析

Core Concept in Data Analysis - Week 1

-書評, 機械学習
-book

執筆者：admin

comment コメントをキャンセル

関連記事

: Pythonではじめる機械学習 – Chap04

4.4 Binning, Discretization, Linear Models, and Trees ビン化のメリット決定木でビン化するメリットはあまりない決定木はモデルの中で一つの特徴につ …

: Core Concept in Data Analysis – Week 4

Contingency Table : 分割表 Nominal : 名目 (カテゴリカル) Taxon : 分類 Marginal : 周辺 Conditional Probability : 条件付 …

: スピアマンの順位相関

スピアマンの順位相関を利用して県のデータを使った相関係数を出してみる。持家普及率を自動車普及率のランキングは、土地がせまいほど低く、有効な土地が広いほど高くなるために順位相関があると考えられる。持 …

: 線形回帰とリッジ回帰を比較する

リッジ回帰はL2ノルムの正則項を導入することで、過学習を防ぐ。この場合過学習を防ぐとは、重みを0の方向に動かすという意味である。実際に線形回帰とリッジ回帰を比べてみて、どのようにモデルが変わるかを確認 …

: データ分析の基本と業務

開発生産性は調和平均で計算する。安全性の在庫の計算には正規分布を利用できる。標準偏差=5であることを利用すると何が言えるか。 Z=1.96で95%をカバーする。よって 5 x 1.96でほぼ10 …

PREV: dataanalysis-002-week4
NEXT: 会社を変える分析の力

GIMPでForeground color pickerが正しくない色をピックアップするときの対応方法 2021年9月7日
lerpとslerpの違い 2021年8月5日
シェーダーとは 2021年8月3日
Unityの座標系についてメモ 2021年7月1日
ALLとREMOVEFILTERSの違い 2021年6月28日