機械学習プロジェクトの流れ
- 問題の定式化
- 機械学習を利用しない方法
- システム設計
- アルゴリズム選定
- 特徴量・教師データ・ログの設計
- 前処理
- 学習・パラメータチューニング
- システム統合
問題の定式化
目的+KPI+解き方
目的 | KPI | 解き方 |
ECサイトの売り上げを向上 | ユーザー一人当たりの売り上げ | ユーザーにお勧め商品の掲示 |
工場のコスト削減 | 工場の電力消費量 | 消費電力予測 |
ECサイトの売り上げを向上 | 有料会員数 | 有料会員への変わる確率予測 |
機会学習をしなくてもよい方法
機械学習には様々な技術的負債がある
機械学習に向いているシステム
- 大量データから高速・安定した出力(予測、分類など)
- 一定数の間違いは許容
MVPによりPOCを進めて、既存オペレーションとの相性を確認する
システム設計
予測結果の配布
- Web経由
- データベース
- API
撤退方針
- 時間軸に対して予測結果を決めておく。例)2か月で90%の予測
アルゴリズム選定
過去の類似問題の解き方、正解ラベルが利用できるか、問題の種類による絞り込み
EDAによる絞り込み
特徴量・教師データ・ログの設計
特徴量 – 選定したアルゴリズムに対する説明変数
教師データ – 選定したアルゴリズムに対する実際のデータ(目的変数・説明変数)
ログ – 教師データの取得方法
前処理
NAの変換
異常値の処理
テキストデータの変換
数値データのとりあつかい
ダミー変数生成
学習・パラメータチューニング
シンプルなモデル
適切なパラメータ
- Grid Search
過学習を避ける
- Cross Validation
- 正則化
- Learning Curveの検証
システムへの組み込み
g