科学の箱

科学・IT・登山の話題

機械学習

データ取り込み後に確認すること

投稿日:2014年7月3日 更新日:

# tidyデータの原則
# 1カラム = 1変数
# 1行 = 1観察
# 1テーブル = 1 unique key
# foreign key to link

# テーブル全体で見ること
# カラム名は正しい
# カラム名の意味が分かりやすい
# 1項目 = 1変数
# 項目のデータは意味があるか
# 1テーブル = 1 unique key
# foreign key to link

# 各変数について確認すること
# missing value
# はずれ値
# skew -> logでとることを考える
# range
# データがマイナスや0のときはそれが正しいのか、おかしいならその理由を明らかにする

# 行について確認すること
# 1レコード = 1観察

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

線形回帰と最急降下法

線形回帰 世の中の様々な出来事(y)はある事象(x)に対して比例することが多い。もちろん厳密に比例するわけではなくずれは生じる。しかしこのxとyが比例すると仮定した場合、中学校で習った一次式でこの関係 …

no image

Pythonではじめる機械学習 – Chap05 – Model Evaluation and Improvement

Chapter 5. Model Evaluation and Improvement 学習モデルの評価 定量的なモデルの評価は教師付きモデルが主になる。 教師なしモデルは定性的なアプローチで評価する …

no image

Core Concept in Data Analysis – Week 4

Contingency Table : 分割表 Nominal : 名目 (カテゴリカル) Taxon : 分類 Marginal : 周辺 Conditional Probability : 条件付 …

no image

Pythonではじめる機械学習 – KDE

カーネル密度分布とは カーネル密度分布とは一言でいうと滑らかなヒストグラムであり曲線になっている。標本データから確率密度を計算することにより標本がない部分についても確率密度を計算できる。 例えば犯罪の …

no image

線形回帰とリッジ回帰を比較する

リッジ回帰はL2ノルムの正則項を導入することで、過学習を防ぐ。この場合過学習を防ぐとは、重みを0の方向に動かすという意味である。実際に線形回帰とリッジ回帰を比べてみて、どのようにモデルが変わるかを確認 …

2014年7月
« 6月   8月 »
 123456
78910111213
14151617181920
21222324252627
28293031  

side bar top



アーカイブ

カテゴリー