- データを取り込む
- data frameに変換する
- desdribe()メソッドで要約統計量を出力
- 各項目について残差分析(ここでは各データが平均値からどの程度離れているか、要するに分散の傾向を把握する、χ2の残差分析ではない)
- 各項目について例外値分析
- カテゴラルデータはグループごとに集計(件数が多い値、少ない値について見てみる)
- 時系列データは時間ごとの変化をプロット
- regression分析
- ヒストグラムやボックスプロットで比較
科学・IT・登山の話題
投稿日:2018年3月22日 更新日:
執筆者:admin
関連記事
ニートの年齢別割合が1996年と2012年で関連性があるか独立性の検定をしてみる。 ニートの割合 1996 2012 15~19歳 9 9 20~24歳 12 17 25~29歳 10 18 30~ …
仕事で始める機械学習 – 4章 システムに機械学習を組み込む
機械学習アーキテクチャ 学習方法としては3つのパターンがある バッチ処理で一括学習 バッチ処理で逐次学習 リアルタイムで逐次学習 学習と予測パターンの提供方法としては4つのパターンがある バッチ学習- …
データの内容を確認する。 期間を調べる d_train[‘datetime’].min() ‘ ‘2013-11-18’ d_train[‘datetime’].max() ‘ ‘2014-9-9’ …