科学の箱

科学・IT・登山の話題

機械学習

データ取り込み後に確認すること

投稿日:2014年7月3日 更新日:

# tidyデータの原則
# 1カラム = 1変数
# 1行 = 1観察
# 1テーブル = 1 unique key
# foreign key to link

# テーブル全体で見ること
# カラム名は正しい
# カラム名の意味が分かりやすい
# 1項目 = 1変数
# 項目のデータは意味があるか
# 1テーブル = 1 unique key
# foreign key to link

# 各変数について確認すること
# missing value
# はずれ値
# skew -> logでとることを考える
# range
# データがマイナスや0のときはそれが正しいのか、おかしいならその理由を明らかにする

# 行について確認すること
# 1レコード = 1観察

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Core Concept in Data Analysis – Week 5

予測の分析 関連性を分析する モデルを明らかにする。 パラメータを推測する。 テストする。 予測が将来になると難しい→環境が変わってしまうため。 correlation structure (質的尺度 …

no image

仕事で始める機械学習 – 3.学習結果を評価しよう – 指標

主な指標 モデル構築後に確認する主な指標は4つある。 正解率 適合率 再現率 F値 正解率 $$ 正解率 = \frac{TP + TN}{TP+FP+TN+FN} $$ 正解率は全データ数に対する正 …

no image

データ分析について評価する

デザイン コントロールグループはあるか モデル 検定の前提は満たしているか(正規分布) 従属変数の尺度は適切か(名義、順序、間隔、比率) 独立変数の数は適切か モデルについて説明できるか(独立変数の数 …

no image

DictVectorizerを使ってカテゴリデータについて特徴抽出をする

都市における温度データを考える。 measure = [ {‘city’: ‘Dubai’, ‘temperature’: 33.}, {‘city’: ‘London’, ‘temperature’ …

no image

irisを教師なし学習で分類ーGMM

これまでは正解ラベルがある前提、つまり教師あり学習でモデルを構築した。今回は正解ラベルがない前提でモデルを構築する。 教師なし学習としては混合ガウスモデルを利用する。 内容 データの読み込み、前処理 …

2014年7月
« 6月   8月 »
 123456
78910111213
14151617181920
21222324252627
28293031  

side bar top



アーカイブ

カテゴリー