科学の箱

科学・IT・登山の話題

機械学習

Exploratory Data Analysis

投稿日:2018年3月21日 更新日:

データを取得した後にやることは、データの構造化とクレンジング。それが完了したらData Exploratory Analysisに入る。

Exloratory Data Analysis(EDA)に関しては下記のサイトでよくまとまっている。EDAはJohn Turkeyによってまとまれたデータから興味ある知見を引き出すためのプロセスである。歴史的なEDAの定義については下記のサイトが詳しい。

http://www.creative-wisdom.com/teaching/WBI/EDA.shtml

このサイトによるとEDAを構成するのは下記の4つである。

  1. visualization
  2. 残差分析
  3. transformation
  4. resistant分析

Visualizationがなぜ重要なのか。それはこのサイトで詳細に説明されてる。ロンドンでペストが発生したときに発生件数と地図をマッピングしたら原因を特定できた逸話は有名である。

https://www.dashingd3js.com/why-data-visualizations

EDAについてもう少し現在のアプローチはこちらに記載されている。Irisデータなどを用いたEDAについても説明されている。

http://datascienceguide.github.io/exploratory-data-analysis

EDAからどのように知見を引き出すのか。こちらのサイトではkaggleで利用できるデータをグラフ化してそこから分析を加えている。

https://www.kaggle.com/jasonbaik94/exploratory-data-visualization-python-vs-r

最後にとりあえず、エイヤでEDAをしてしまえというのがこちら。

https://www.r-bloggers.com/a-quick-and-dirty-guide-to-exploratory-data-visualization/

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Pythonではじめる機械学習 – Chap03

3.1 Types of Unsupervised Learning 教師なし学習の例 次元削減: 重要な特徴量のみを使って元のデータを表現する トピック抽出: データを構成する部品を見つける クラス …

no image

logistic regressionでの失敗

ロジスティック回帰でデータを分析しようとしたところうまくいかず。どうにもこうにもおかしな値が出るし、他の回帰分析との結果と明らか矛盾している。よくわからないのでとりあえずirisデータを使って手順を追 …

no image

dataanalysis-002-week1

Rstudioを開発に使う 開発が用意 Forumがある 標準 フリー Help R Mailling list Stackoverflow CrossValidated R-Help ?rnorm …

no image

dataanalysis-002-week3

exploratory analysis グラフの目的 データのおおよそを理解する パターンを探す モデリングを探す デバッグ コミュニケーション boxplot 値のレンジを確認する 他の値とレンジ …

no image

数値項目の分析テンプレート

数値フィールド1 数値フィールド1 rate – 1 rate – 2 データ型 算術平均 中央値 分散 トップ3 ボトム3 足切 時系列分析 層別候補 ヒストグラム カウント …

2018年3月
« 2月   4月 »
 1234
567891011
12131415161718
19202122232425
262728293031  

side bar top



アーカイブ

カテゴリー