科学・IＴ・登山の話題

pythonでEDAを実施する – 記述統計

投稿日：2018年3月22日更新日：2019年9月22日

データを取り込む
data frameに変換する
desdribe()メソッドで要約統計量を出力
各項目について残差分析（ここでは各データが平均値からどの程度離れているか、要するに分散の傾向を把握する、χ2の残差分析ではない）
各項目について例外値分析
カテゴラルデータはグループごとに集計（件数が多い値、少ない値について見てみる）
時系列データは時間ごとの変化をプロット
regression分析
ヒストグラムやボックスプロットで比較

Related posts:

dataanalysis-002-week4

SIGNATE お弁当の需要予測-1

Pythonではじめる機械学習 - k-Means

執筆者：admin

comment コメントをキャンセル

関連記事

: データ分析の基本と業務

開発生産性は調和平均で計算する。安全性の在庫の計算には正規分布を利用できる。標準偏差=5であることを利用すると何が言えるか。 Z=1.96で95%をカバーする。よって 5 x 1.96でほぼ10 …

: irisをナイーブベイズで分類

ナイーブベイズの概要ナイーブベイズは教師ありの分類アルゴリズムの一つである。計算アルゴリズムとしてはベイズ定理を用いている。機械学習における特徴としてはいかがある実装が簡単であり、複雑なハイパ …

: Statistical Reasoning for Public Health

Module up to 3 SES – 社会経済的地位 Cognitive function – 認知機能 The authors used the graphic alon …

: 回帰と分類の違い

回帰と分類は両方とも”予測”問題である。予測とは従属変数から目的変数を明らかにする。この目的変数の種類により回帰と分類に分けられる。回帰では連続した数値を予測する。例えば株価 …

: 判別式

判別式の手順散布図をプロットしてみてグループに分けることができるかを検討する判別式のモデル（線形判別、マハラノビスなど）を検討するデータを読み込み判別式テンプレートを作成する判別式を作成する …

PREV: Exploratory Data Analysis
NEXT: matplotlibでfigureを利用する

GIMPでForeground color pickerが正しくない色をピックアップするときの対応方法 2021年9月7日
lerpとslerpの違い 2021年8月5日
シェーダーとは 2021年8月3日
Unityの座標系についてメモ 2021年7月1日
ALLとREMOVEFILTERSの違い 2021年6月28日