科学・IＴ・登山の話題

データ取り込み後に確認すること

投稿日：2014年7月3日更新日：2019年9月22日

# tidyデータの原則
# 1カラム = 1変数
# 1行 = 1観察
# 1テーブル = 1 unique key
# foreign key to link

# テーブル全体で見ること
# カラム名は正しい
# カラム名の意味が分かりやすい
# 1項目 = 1変数
# 項目のデータは意味があるか
# 1テーブル = 1 unique key
# foreign key to link

# 各変数について確認すること
# missing value
# はずれ値
# skew -> logでとることを考える
# range
# データがマイナスや0のときはそれが正しいのか、おかしいならその理由を明らかにする

# 行について確認すること
# 1レコード = 1観察

執筆者：admin

: dataanalysis-002-week4

クラスタリング SVDと組み合わせることでよりクラスに分かれているクラスタリングを実行できる。散布図でクラスタリングする変数を探すクラスタリング SVDを実行する SVDの結果をクラスタリングに取 …

: 仕事で始める機械学習 – 1. 機械学習プロジェクトの始め方

機械学習プロジェクトの流れ問題の定式化機械学習を利用しない方法システム設計アルゴリズム選定特徴量・教師データ・ログの設計前処理学習・パラメータチューニングシステム統合問題の定式化目 …

: 仕事で始める機械学習 – 3.学習結果を評価しよう – 指標

主な指標モデル構築後に確認する主な指標は４つある。正解率適合率再現率 F値正解率 $$ 正解率 = \frac{TP + TN}{TP+FP+TN+FN} $$ 正解率は全データ数に対する正 …

: ウェブ分析をハンズオンで学ぶ

ウェブ分析の本を読んでもあまりあたまに入ってこない。実際に手を動かさないと、身につかないわけである。ということでハンズオンで実践して見ることにした。ハンズオンで実践するに当たり必要なのはデータとツー …

: 多変量解析

多変量解析の分類回帰分析ロジスティック分析判別分析主成分分析因子分析共分散クラスタリング共分散 Sxy = Σ(Xi – X~)(Yi – Y~) / n 共分 …