科学の箱

科学・IT・登山の話題

機械学習

pythonでEDAを実施する – 記述統計

投稿日:2018年3月22日 更新日:

  1. データを取り込む
  2. data frameに変換する
  3. desdribe()メソッドで要約統計量を出力
  4. 各項目について残差分析(ここでは各データが平均値からどの程度離れているか、要するに分散の傾向を把握する、χ2の残差分析ではない)
  5. 各項目について例外値分析
  6. カテゴラルデータはグループごとに集計(件数が多い値、少ない値について見てみる)
  7. 時系列データは時間ごとの変化をプロット
  8. regression分析
  9. ヒストグラムやボックスプロットで比較

 

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

条件付きでレコードを取得する

データフレームでは条件付きでレコードを取得できる。 以下のようなフォーマットのデータフレームを考える id name height vector1 <- c(1, 2, 3, 4, 5) vec …

no image

Pythonではじめる機械学習 – 多様体学習

多様体学習 次元削減に利用できる手法として主成分分析がある。これは柔軟であり、すぐに実装可能な次元削減アルゴリズムの一つである。しかし一つだけ問題がある。それは主成分分析に適用できるデータは線形のみで …

no image

回帰と分類の違い

回帰と分類は両方とも”予測”問題である。予測とは従属変数から目的変数を明らかにする。この目的変数の種類により回帰と分類に分けられる。 回帰では連続した数値を予測する。例えば株価 …

no image

R Dataset – bone

データの説明 261人の子供たちから得られた年齢別骨密度。 フォーマット idnum: 識別コード age: 測定時の年齢 gender: 性別 spnbmd: 骨密度 チェック テーブル全体について …

no image

Core Concept in Data Analysis – Week 2

1D analysis summary ヒストグラム ヒストグラムのタイプ:gaussian/power law 中心極限定理 確率分布 ブートストラップによる検証 gaussian 測定誤差もしくは …

2018年3月
« 2月   4月 »
 1234
567891011
12131415161718
19202122232425
262728293031  

side bar top



アーカイブ

カテゴリー