科学の箱

科学・IT・登山の話題

機械学習

仕事で始める機械学習 – 4章 システムに機械学習を組み込む

投稿日:2019年11月16日 更新日:

機械学習アーキテクチャ

学習方法としては3つのパターンがある
  • バッチ処理で一括学習
  • バッチ処理で逐次学習
  • リアルタイムで逐次学習
学習と予測パターンの提供方法としては4つのパターンがある
  • バッチ学習-予測をwebアプリで提供(リアルタイムで予測)
  • バッチ学習-予測をAPIで利用(リアルタイムで予測)
  • バッチ学習-予測をDBで利用(予測はバッチ)
  • リアルタイムで学習
3つのシステムの関係性がアーキテクチャである
  • Webアプリケーションサーバー
  • 予測サーバー
  • 学習サーバー

ログ設計

教師データを生成するためにはログが必要である。ログの設計はモデルから逆算して必要なログデータを設計する。
モデルについて考えるべきこと
  • ユーザー情報
  • コンテンツ情報
  • 行動情報
ユーザー情報ログ→特徴抽出→ユーザー情報特徴→モデル
  • 登録時ユーザー情報
  • メール、名前等をキーにした紐づけられるその他ユーザー情報
コンテンツ情報
  • コンテンツ登録時情報
  • コンテンツ提供会社からの情報
  • コンテンツ配信業者からの情報
行動情報
  • アクセスログ
  • ユーザーイベント情報

ログの保持

ログ情報は巨大になるためにデータベースに保持すること
  • 分散RDBMS
  • KVS
  • オブジェクトデータベース

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

AWStatで基本指標を読む

ウェッブサイトの分析でまず見るべきことは月ごとのトレンドである。確認すべき指標はPV, 訪問数、UUdとなる。 AWStatではこれらの項目はWhen -> Month Historyで棒グラフ …

no image

DictVectorizerを使ってカテゴリデータについて特徴抽出をする

都市における温度データを考える。 measure = [ {‘city’: ‘Dubai’, ‘temperature’: 33.}, {‘city’: ‘London’, ‘temperature’ …

no image

Core Concept in Data Analysis – Week 5

予測の分析 関連性を分析する モデルを明らかにする。 パラメータを推測する。 テストする。 予測が将来になると難しい→環境が変わってしまうため。 correlation structure (質的尺度 …

no image

スピアマンの順位相関

スピアマンの順位相関を利用して県のデータを使った相関係数を出してみる。 持家普及率を自動車普及率のランキングは、土地がせまいほど低く、有効な土地が広いほど高くなるために順位相関があると考えられる。 持 …

no image

線形回帰とリッジ回帰を比較する

リッジ回帰はL2ノルムの正則項を導入することで、過学習を防ぐ。この場合過学習を防ぐとは、重みを0の方向に動かすという意味である。実際に線形回帰とリッジ回帰を比べてみて、どのようにモデルが変わるかを確認 …

2019年11月
« 10月   12月 »
 123
45678910
11121314151617
18192021222324
252627282930  

side bar top



アーカイブ

カテゴリー