Exploratory Data Analysis

投稿日：2018年3月21日更新日：2019年9月22日

データを取得した後にやることは、データの構造化とクレンジング。それが完了したらData Exploratory Analysisに入る。

Exloratory Data Analysis(EDA)に関しては下記のサイトでよくまとまっている。EDAはJohn Turkeyによってまとまれたデータから興味ある知見を引き出すためのプロセスである。歴史的なEDAの定義については下記のサイトが詳しい。

http://www.creative-wisdom.com/teaching/WBI/EDA.shtml

このサイトによるとEDAを構成するのは下記の4つである。

Visualizationがなぜ重要なのか。それはこのサイトで詳細に説明されてる。ロンドンでペストが発生したときに発生件数と地図をマッピングしたら原因を特定できた逸話は有名である。

https://www.dashingd3js.com/why-data-visualizations

EDAについてもう少し現在のアプローチはこちらに記載されている。Irisデータなどを用いたEDAについても説明されている。

http://datascienceguide.github.io/exploratory-data-analysis

EDAからどのように知見を引き出すのか。こちらのサイトではkaggleで利用できるデータをグラフ化してそこから分析を加えている。

https://www.kaggle.com/jasonbaik94/exploratory-data-visualization-python-vs-r

最後にとりあえず、エイヤでEDAをしてしまえというのがこちら。

https://www.r-bloggers.com/a-quick-and-dirty-guide-to-exploratory-data-visualization/

執筆者：admin