科学の箱

科学・IT・登山の話題

機械学習

仕事で始める機械学習 – 4章 システムに機械学習を組み込む

投稿日:2019年11月16日 更新日:

機械学習アーキテクチャ

学習方法としては3つのパターンがある
  • バッチ処理で一括学習
  • バッチ処理で逐次学習
  • リアルタイムで逐次学習
学習と予測パターンの提供方法としては4つのパターンがある
  • バッチ学習-予測をwebアプリで提供(リアルタイムで予測)
  • バッチ学習-予測をAPIで利用(リアルタイムで予測)
  • バッチ学習-予測をDBで利用(予測はバッチ)
  • リアルタイムで学習
3つのシステムの関係性がアーキテクチャである
  • Webアプリケーションサーバー
  • 予測サーバー
  • 学習サーバー

ログ設計

教師データを生成するためにはログが必要である。ログの設計はモデルから逆算して必要なログデータを設計する。
モデルについて考えるべきこと
  • ユーザー情報
  • コンテンツ情報
  • 行動情報
ユーザー情報ログ→特徴抽出→ユーザー情報特徴→モデル
  • 登録時ユーザー情報
  • メール、名前等をキーにした紐づけられるその他ユーザー情報
コンテンツ情報
  • コンテンツ登録時情報
  • コンテンツ提供会社からの情報
  • コンテンツ配信業者からの情報
行動情報
  • アクセスログ
  • ユーザーイベント情報

ログの保持

ログ情報は巨大になるためにデータベースに保持すること
  • 分散RDBMS
  • KVS
  • オブジェクトデータベース

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

スピアマンの順位相関

スピアマンの順位相関を利用して県のデータを使った相関係数を出してみる。 持家普及率を自動車普及率のランキングは、土地がせまいほど低く、有効な土地が広いほど高くなるために順位相関があると考えられる。 持 …

no image

AWStatで基本指標を読む

ウェッブサイトの分析でまず見るべきことは月ごとのトレンドである。確認すべき指標はPV, 訪問数、UUdとなる。 AWStatではこれらの項目はWhen -> Month Historyで棒グラフ …

no image

K近傍法と決定木の比較

One of the most comprehensible non-parametric methods is k-nearest-neighbors: find the points which …

no image

Pythonではじめる機械学習 – GMM

k-Meansの課題 クラスタ間で微妙な位置関係にあるデータについて特定クラスタに分類された際の不確実の度合いを知ることができない。 例えば51%の確率でクラスタAであり、49%の確率でクラスタBかも …

no image

dataanalysis-002-week6

prediction study motivation 手順 データの選択 エラーの測定 デザイン データの分割 トレーニング テスト 検証 true false positives true pos …

2019年11月
« 10月   12月 »
 123
45678910
11121314151617
18192021222324
252627282930  

side bar top



アーカイブ

カテゴリー