科学の箱

科学・IT・登山の話題

機械学習

pythonでEDAを実施する – 記述統計

投稿日:2018年3月22日 更新日:

  1. データを取り込む
  2. data frameに変換する
  3. desdribe()メソッドで要約統計量を出力
  4. 各項目について残差分析(ここでは各データが平均値からどの程度離れているか、要するに分散の傾向を把握する、χ2の残差分析ではない)
  5. 各項目について例外値分析
  6. カテゴラルデータはグループごとに集計(件数が多い値、少ない値について見てみる)
  7. 時系列データは時間ごとの変化をプロット
  8. regression分析
  9. ヒストグラムやボックスプロットで比較

 

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

AWStatで基本指標を読む

ウェッブサイトの分析でまず見るべきことは月ごとのトレンドである。確認すべき指標はPV, 訪問数、UUdとなる。 AWStatではこれらの項目はWhen -> Month Historyで棒グラフ …

no image

Pythonではじめる機械学習 – Chap04

4.4 Binning, Discretization, Linear Models, and Trees ビン化のメリット 決定木でビン化するメリットはあまりない 決定木はモデルの中で一つの特徴につ …

no image

ジニ係数(再掲)

ジニ係数について修正した。とりあえずコード。 revenue<-read.csv(file=”data.csv”, head=TRUE) revenue$TotalRevenues_n < …

no image

仕事で始める機械学習 – 6章 効果検証

効果検証のステップ 問題認識: 顧客の機器利用率が低い 問題の影響: 長期的なメンテナンス契約からの利益の確保 課題設定候補: メンテナンス以外からの利益確保 新規顧客からの利益 顧客利用率を上げる …

no image

多変量解析

多変量解析の分類 回帰分析 ロジスティック分析 判別分析 主成分分析 因子分析 共分散 クラスタリング 共分散 Sxy = Σ(Xi – X~)(Yi – Y~) / n 共分 …

2018年3月
« 2月   4月 »
 1234
567891011
12131415161718
19202122232425
262728293031  

side bar top



アーカイブ

カテゴリー