科学の箱

科学・IT・登山の話題

機械学習

仕事で始める機械学習 – 1. 機械学習プロジェクトの始め方

投稿日:

機械学習プロジェクトの流れ

  1. 問題の定式化
  2. 機械学習を利用しない方法
  3. システム設計
  4. アルゴリズム選定
  5. 特徴量・教師データ・ログの設計
  6. 前処理
  7. 学習・パラメータチューニング
  8. システム統合

問題の定式化

目的+KPI+解き方

目的 KPI 解き方
ECサイトの売り上げを向上 ユーザー一人当たりの売り上げ ユーザーにお勧め商品の掲示
工場のコスト削減 工場の電力消費量 消費電力予測
ECサイトの売り上げを向上 有料会員数 有料会員への変わる確率予測

機会学習をしなくてもよい方法

機械学習には様々な技術的負債がある

機械学習に向いているシステム

  • 大量データから高速・安定した出力(予測、分類など)
  • 一定数の間違いは許容

MVPによりPOCを進めて、既存オペレーションとの相性を確認する

システム設計

予測結果の配布

  • Web経由
  • データベース
  • API

撤退方針

  • 時間軸に対して予測結果を決めておく。例)2か月で90%の予測

アルゴリズム選定

過去の類似問題の解き方、正解ラベルが利用できるか、問題の種類による絞り込み

EDAによる絞り込み

特徴量・教師データ・ログの設計

特徴量 – 選定したアルゴリズムに対する説明変数

教師データ – 選定したアルゴリズムに対する実際のデータ(目的変数・説明変数)

ログ – 教師データの取得方法

前処理

NAの変換

異常値の処理

テキストデータの変換

数値データのとりあつかい

ダミー変数生成

学習・パラメータチューニング

シンプルなモデル

適切なパラメータ

  • Grid Search

過学習を避ける

  • Cross Validation
  • 正則化
  • Learning Curveの検証

システムへの組み込み

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

dataanalysis-002-week5

ANOVA – quantitative 分散分析、数学的に分散分析と重回帰分析は同じ 分散分析では3群以上の平均の差異を検定する ただし非線形では異なる http://oshiete.g …

no image

Pythonではじめる機械学習 – GMM

k-Meansの課題 クラスタ間で微妙な位置関係にあるデータについて特定クラスタに分類された際の不確実の度合いを知ることができない。 例えば51%の確率でクラスタAであり、49%の確率でクラスタBかも …

no image

irisデータについて簡単な機械学習をしてみる

irisデータを使って簡単な機械学習をしてみる。 ここで説明している内容は以下になる。 データの読み込み、前処理 トレインデータと検証データへの分割 モデル選定 モデル構築および検証 データの読み込み …

no image

UCI datasets

データ分析の勉強をするときに便利なUCI datasets https://archive.ics.uci.edu/ml/datasets.html Related posts:ポワソン分布の利用ir …

no image

ポワソン分布の利用

一時間に平均7通のメールが来るとき100回試行した時のメール受信件数を調べる > rpois(100,7)  [1]  7 10  2  8  5  4  4  9  2  3  9  6  9 …

2019年11月
« 10月   12月 »
 123
45678910
11121314151617
18192021222324
252627282930  

side bar top



アーカイブ

カテゴリー