- データを取り込む
- data frameに変換する
- desdribe()メソッドで要約統計量を出力
- 各項目について残差分析(ここでは各データが平均値からどの程度離れているか、要するに分散の傾向を把握する、χ2の残差分析ではない)
- 各項目について例外値分析
- カテゴラルデータはグループごとに集計(件数が多い値、少ない値について見てみる)
- 時系列データは時間ごとの変化をプロット
- regression分析
- ヒストグラムやボックスプロットで比較
科学・IT・登山の話題
投稿日:2018年3月22日 更新日:
執筆者:admin
関連記事
開発生産性は調和平均で計算する。 安全性の在庫の計算には正規分布を利用できる。 標準偏差=5であることを利用すると何が言えるか。 Z=1.96で95%をカバーする。 よって 5 x 1.96でほぼ10 …
Core Concept in Data Analysis – Week 5
予測の分析 関連性を分析する モデルを明らかにする。 パラメータを推測する。 テストする。 予測が将来になると難しい→環境が変わってしまうため。 correlation structure (質的尺度 …
tracertを繰り返し実行した結果を分析し、経路上のホストについてどの程度時間がかかっているかを分析してみる。 tracertの結果は以下のように取得される。 $ tracert www.googl …
Core Concept in Data Analysis – Week 2
1D analysis summary ヒストグラム ヒストグラムのタイプ:gaussian/power law 中心極限定理 確率分布 ブートストラップによる検証 gaussian 測定誤差もしくは …
仕事で始める機械学習 – 3.学習結果を評価しよう – 指標
主な指標 モデル構築後に確認する主な指標は4つある。 正解率 適合率 再現率 F値 正解率 $$ 正解率 = \frac{TP + TN}{TP+FP+TN+FN} $$ 正解率は全データ数に対する正 …