科学・IＴ・登山の話題

pythonでEDAを実施する – 記述統計

投稿日：2018年3月22日更新日：2019年9月22日

データを取り込む
data frameに変換する
desdribe()メソッドで要約統計量を出力
各項目について残差分析（ここでは各データが平均値からどの程度離れているか、要するに分散の傾向を把握する、χ2の残差分析ではない）
各項目について例外値分析
カテゴラルデータはグループごとに集計（件数が多い値、少ない値について見てみる）
時系列データは時間ごとの変化をプロット
regression分析
ヒストグラムやボックスプロットで比較

Related posts:

irisでPCAを実行し可視化

Pythonではじめる機械学習 – KDE

仕事で始める機械学習 - 2.機械学習で何ができるか - 分類 - SVM

執筆者：admin

comment コメントをキャンセル

関連記事

: K近傍法と決定木の比較

One of the most comprehensible non-parametric methods is k-nearest-neighbors: find the points which …

: Excelによる単回帰分析

エクセルでの単回帰分析をについて手順をまとめる。エクセルの使い方にあわせて分析結果の解釈の仕方も書いておく。データは勉強時間に対する点数とする。これは作ったデータであるが、線形回帰にフィットするよう …

: 仕事で始める機械学習 – 6章効果検証

効果検証のステップ問題認識: 顧客の機器利用率が低い問題の影響: 長期的なメンテナンス契約からの利益の確保課題設定候補: メンテナンス以外からの利益確保新規顧客からの利益顧客利用率を上げる …

: Statistical Reasoning for Public Health

Module up to 3 SES – 社会経済的地位 Cognitive function – 認知機能 The authors used the graphic alon …

: 仕事で始める機械学習 – 3.学習結果を評価しよう – 指標

主な指標モデル構築後に確認する主な指標は４つある。正解率適合率再現率 F値正解率 $$ 正解率 = \frac{TP + TN}{TP+FP+TN+FN} $$ 正解率は全データ数に対する正 …

PREV: Exploratory Data Analysis
NEXT: matplotlibでfigureを利用する

GIMPでForeground color pickerが正しくない色をピックアップするときの対応方法 2021年9月7日
lerpとslerpの違い 2021年8月5日
シェーダーとは 2021年8月3日
Unityの座標系についてメモ 2021年7月1日
ALLとREMOVEFILTERSの違い 2021年6月28日