科学の箱

科学・IT・登山の話題

機械学習

Exploratory Data Analysis

投稿日:2018年3月21日 更新日:

データを取得した後にやることは、データの構造化とクレンジング。それが完了したらData Exploratory Analysisに入る。

Exloratory Data Analysis(EDA)に関しては下記のサイトでよくまとまっている。EDAはJohn Turkeyによってまとまれたデータから興味ある知見を引き出すためのプロセスである。歴史的なEDAの定義については下記のサイトが詳しい。

http://www.creative-wisdom.com/teaching/WBI/EDA.shtml

このサイトによるとEDAを構成するのは下記の4つである。

  1. visualization
  2. 残差分析
  3. transformation
  4. resistant分析

Visualizationがなぜ重要なのか。それはこのサイトで詳細に説明されてる。ロンドンでペストが発生したときに発生件数と地図をマッピングしたら原因を特定できた逸話は有名である。

https://www.dashingd3js.com/why-data-visualizations

EDAについてもう少し現在のアプローチはこちらに記載されている。Irisデータなどを用いたEDAについても説明されている。

http://datascienceguide.github.io/exploratory-data-analysis

EDAからどのように知見を引き出すのか。こちらのサイトではkaggleで利用できるデータをグラフ化してそこから分析を加えている。

https://www.kaggle.com/jasonbaik94/exploratory-data-visualization-python-vs-r

最後にとりあえず、エイヤでEDAをしてしまえというのがこちら。

https://www.r-bloggers.com/a-quick-and-dirty-guide-to-exploratory-data-visualization/

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Pythonではじめる機械学習 – Chap04

4.4 Binning, Discretization, Linear Models, and Trees ビン化のメリット 決定木でビン化するメリットはあまりない 決定木はモデルの中で一つの特徴につ …

no image

Pythonではじめる機械学習 – 多様体学習

多様体学習 次元削減に利用できる手法として主成分分析がある。これは柔軟であり、すぐに実装可能な次元削減アルゴリズムの一つである。しかし一つだけ問題がある。それは主成分分析に適用できるデータは線形のみで …

no image

Mahout in Action/chap2

2.1 レコメンドには2種類ある。 collaborative filtering contents based filtering collaborative filteringではコンテンツの内容 …

no image

データ取り込み後に確認すること

# tidyデータの原則 # 1カラム = 1変数 # 1行 = 1観察 # 1テーブル = 1 unique key # foreign key to link # テーブル全体で見ること # カラ …

no image

ラテン方格

ラテン方格は1~nまでの数字についてn x nの正方行列に一回だけ現れるように並べたものである。ラテン方格を利用して実験の割り付けを行う実験計画法がラテン方格法である。 ラテン方格法と似た実験計画法に …

2018年3月
« 2月   4月 »
 1234
567891011
12131415161718
19202122232425
262728293031  

side bar top



アーカイブ

カテゴリー