科学・IＴ・登山の話題

pythonでEDAを実施する – 記述統計

投稿日：2018年3月22日更新日：2019年9月22日

データを取り込む
data frameに変換する
desdribe()メソッドで要約統計量を出力
各項目について残差分析（ここでは各データが平均値からどの程度離れているか、要するに分散の傾向を把握する、χ2の残差分析ではない）
各項目について例外値分析
カテゴラルデータはグループごとに集計（件数が多い値、少ない値について見てみる）
時系列データは時間ごとの変化をプロット
regression分析
ヒストグラムやボックスプロットで比較

Related posts:

AWStatで基本指標を読む

線形回帰とリッジ回帰とラッソ回帰の違い

仕事で始める機械学習 - 1. 機械学習プロジェクトの始め方

執筆者：admin

comment コメントをキャンセル

関連記事

: データ分析の基本と業務

開発生産性は調和平均で計算する。安全性の在庫の計算には正規分布を利用できる。標準偏差=5であることを利用すると何が言えるか。 Z=1.96で95%をカバーする。よって 5 x 1.96でほぼ10 …

: Core Concept in Data Analysis – Week 5

予測の分析関連性を分析するモデルを明らかにする。パラメータを推測する。テストする。予測が将来になると難しい→環境が変わってしまうため。 correlation structure　(質的尺度 …

: tracertの分析

tracertを繰り返し実行した結果を分析し、経路上のホストについてどの程度時間がかかっているかを分析してみる。 tracertの結果は以下のように取得される。 $ tracert www.googl …

: Core Concept in Data Analysis – Week 2

1D analysis summary ヒストグラムヒストグラムのタイプ：gaussian/power law 中心極限定理確率分布ブートストラップによる検証 gaussian 測定誤差もしくは …

: 仕事で始める機械学習 – 3.学習結果を評価しよう – 指標

主な指標モデル構築後に確認する主な指標は４つある。正解率適合率再現率 F値正解率 $$ 正解率 = \frac{TP + TN}{TP+FP+TN+FN} $$ 正解率は全データ数に対する正 …

PREV: Exploratory Data Analysis
NEXT: matplotlibでfigureを利用する

GIMPでForeground color pickerが正しくない色をピックアップするときの対応方法 2021年9月7日
lerpとslerpの違い 2021年8月5日
シェーダーとは 2021年8月3日
Unityの座標系についてメモ 2021年7月1日
ALLとREMOVEFILTERSの違い 2021年6月28日