科学の箱

科学・IT・登山の話題

機械学習

仕事で始める機械学習 – 4章 システムに機械学習を組み込む

投稿日:2019年11月16日 更新日:

機械学習アーキテクチャ

学習方法としては3つのパターンがある
  • バッチ処理で一括学習
  • バッチ処理で逐次学習
  • リアルタイムで逐次学習
学習と予測パターンの提供方法としては4つのパターンがある
  • バッチ学習-予測をwebアプリで提供(リアルタイムで予測)
  • バッチ学習-予測をAPIで利用(リアルタイムで予測)
  • バッチ学習-予測をDBで利用(予測はバッチ)
  • リアルタイムで学習
3つのシステムの関係性がアーキテクチャである
  • Webアプリケーションサーバー
  • 予測サーバー
  • 学習サーバー

ログ設計

教師データを生成するためにはログが必要である。ログの設計はモデルから逆算して必要なログデータを設計する。
モデルについて考えるべきこと
  • ユーザー情報
  • コンテンツ情報
  • 行動情報
ユーザー情報ログ→特徴抽出→ユーザー情報特徴→モデル
  • 登録時ユーザー情報
  • メール、名前等をキーにした紐づけられるその他ユーザー情報
コンテンツ情報
  • コンテンツ登録時情報
  • コンテンツ提供会社からの情報
  • コンテンツ配信業者からの情報
行動情報
  • アクセスログ
  • ユーザーイベント情報

ログの保持

ログ情報は巨大になるためにデータベースに保持すること
  • 分散RDBMS
  • KVS
  • オブジェクトデータベース

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

SIGNATE お弁当の需要予測-2

データの内容を確認する。 期間を調べる d_train[‘datetime’].min() ‘ ‘2013-11-18’ d_train[‘datetime’].max() ‘ ‘2014-9-9’ …

no image

会社を変える分析の力

ユーザに関する問題 不確実性 過剰期待 事前期待 分析モデルの利用 パターン 変数の数 分析の利用 予測 判別 グループ 検知 最適化 発見 探索 データ分析の必要性 なぜ誤差がでるのか Costは …

no image

データ分析のメモ

一変量解析 各変数についてsummaryをとり、平均値、分散を確認する。変数について尺度を確認してどのように分析を進めるかを考える。 度数分布を作成して値の分布をみてみる。正規分布の値であればいろいろ …

no image

Pythonではじめる機械学習 – k-Means

k-Meansの概要 k-Meansは教師なし学習の一つであり、あらかじめ指定された数にグループを分ける。 例えば今身長である程度まとまって席に座っている生徒を考えます。k-Meansでは最初に分ける …

no image

Core Concept in Data Analysis – Week 5

予測の分析 関連性を分析する モデルを明らかにする。 パラメータを推測する。 テストする。 予測が将来になると難しい→環境が変わってしまうため。 correlation structure (質的尺度 …

2019年11月
« 10月   12月 »
 123
45678910
11121314151617
18192021222324
252627282930  

side bar top



アーカイブ

カテゴリー