科学・IＴ・登山の話題

仕事で始める機械学習 – 1. 機械学習プロジェクトの始め方

投稿日：2019年11月3日

機械学習プロジェクトの流れ

問題の定式化
機械学習を利用しない方法
システム設計
アルゴリズム選定
特徴量・教師データ・ログの設計
前処理
学習・パラメータチューニング
システム統合

問題の定式化

目的＋KPI＋解き方

目的	KPI	解き方
ECサイトの売り上げを向上	ユーザー一人当たりの売り上げ	ユーザーにお勧め商品の掲示
工場のコスト削減	工場の電力消費量	消費電力予測
ECサイトの売り上げを向上	有料会員数	有料会員への変わる確率予測

機会学習をしなくてもよい方法

機械学習には様々な技術的負債がある

機械学習に向いているシステム

大量データから高速・安定した出力（予測、分類など）
一定数の間違いは許容

MVPによりPOCを進めて、既存オペレーションとの相性を確認する

システム設計

予測結果の配布

Web経由
データベース
API

撤退方針

時間軸に対して予測結果を決めておく。例)2か月で90%の予測

アルゴリズム選定

過去の類似問題の解き方、正解ラベルが利用できるか、問題の種類による絞り込み

EDAによる絞り込み

特徴量・教師データ・ログの設計

特徴量 – 選定したアルゴリズムに対する説明変数

教師データ – 選定したアルゴリズムに対する実際のデータ（目的変数・説明変数）

ログ – 教師データの取得方法

前処理

NAの変換

異常値の処理

テキストデータの変換

数値データのとりあつかい

ダミー変数生成

学習・パラメータチューニング

シンプルなモデル

適切なパラメータ

Grid Search

過学習を避ける

Cross Validation
正則化
Learning Curveの検証

システムへの組み込み

ｇ

Related posts:

データ分析について評価する

手書き数字のデータセットについてイメージを確認

Pythonではじめる機械学習 - 多様体学習

執筆者：admin

comment コメントをキャンセル

関連記事

: 多変量解析

多変量解析の分類回帰分析ロジスティック分析判別分析主成分分析因子分析共分散クラスタリング共分散 Sxy = Σ(Xi – X~)(Yi – Y~) / n 共分 …

: AWStatで基本指標を読む

ウェッブサイトの分析でまず見るべきことは月ごとのトレンドである。確認すべき指標はPV, 訪問数、UUdとなる。 AWStatではこれらの項目はWhen -> Month Historyで棒グラフ …

: irisを教師なし学習で分類ーGMM

これまでは正解ラベルがある前提、つまり教師あり学習でモデルを構築した。今回は正解ラベルがない前提でモデルを構築する。教師なし学習としては混合ガウスモデルを利用する。内容データの読み込み、前処理 …

: 仕事で始める機械学習 – 2.機械学習で何ができるか – 分類 – ロジスティック回帰

ロジスティック回帰確率を得るためにパーセプトロンの判別式により確率をとることはできない。パーセプトロンのヒンジ損失は正負のみを判断し、間違っている場合だけパラメータの更新をする。つまりぎりぎりで正 …

: 仕事で始める機械学習 – 6章効果検証

効果検証のステップ問題認識: 顧客の機器利用率が低い問題の影響: 長期的なメンテナンス契約からの利益の確保課題設定候補: メンテナンス以外からの利益確保新規顧客からの利益顧客利用率を上げる …

PREV: Pythonではじめる機械学習 - k-Means
NEXT: Pythonではじめる機械学習 – GMM

GIMPでForeground color pickerが正しくない色をピックアップするときの対応方法 2021年9月7日
lerpとslerpの違い 2021年8月5日
シェーダーとは 2021年8月3日
Unityの座標系についてメモ 2021年7月1日
ALLとREMOVEFILTERSの違い 2021年6月28日