科学の箱

科学・IT・登山の話題

機械学習

データ取り込み後に確認すること

投稿日:2014年7月3日 更新日:

# tidyデータの原則
# 1カラム = 1変数
# 1行 = 1観察
# 1テーブル = 1 unique key
# foreign key to link

# テーブル全体で見ること
# カラム名は正しい
# カラム名の意味が分かりやすい
# 1項目 = 1変数
# 項目のデータは意味があるか
# 1テーブル = 1 unique key
# foreign key to link

# 各変数について確認すること
# missing value
# はずれ値
# skew -> logでとることを考える
# range
# データがマイナスや0のときはそれが正しいのか、おかしいならその理由を明らかにする

# 行について確認すること
# 1レコード = 1観察

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

irisを教師なし学習で分類ーGMM

これまでは正解ラベルがある前提、つまり教師あり学習でモデルを構築した。今回は正解ラベルがない前提でモデルを構築する。 教師なし学習としては混合ガウスモデルを利用する。 内容 データの読み込み、前処理 …

no image

Core Concept in Data Analysis – Week 4

Contingency Table : 分割表 Nominal : 名目 (カテゴリカル) Taxon : 分類 Marginal : 周辺 Conditional Probability : 条件付 …

no image

売り上げデータの分析

利益 = 売り上げ – コスト 売り上げ = 客数 x 客単価 コスト ≒ 人件費 + 廃棄コスト 客数 客単価 = Σ 品物i x 購入数 客数を増やす方法 来てもらう方法 安売りキャン …

no image

前向き研究と後ろ向き研究

前向き研究と後ろ向き研究は疫学における用語である。 前向き研究で使われる研究手法にはコホートや無作為比較対照研究、ロジスティック分析がある。これらの研究ではサンプルをリスクファクター(危険要因)のある …

no image

Core Concept in Data Analysis – Week 3

2d Analsysis 分布図 相関 回帰分析 因果関係 ガルトンはダーウィンのいとこ Related posts:多変量解析手書き数字のデータセットについてイメージを確認Pythonではじめる機械 …

2014年7月
« 6月   8月 »
 123456
78910111213
14151617181920
21222324252627
28293031  

side bar top



アーカイブ

カテゴリー