データを取得した後にやることは、データの構造化とクレンジング。それが完了したらData Exploratory Analysisに入る。
Exloratory Data Analysis(EDA)に関しては下記のサイトでよくまとまっている。EDAはJohn Turkeyによってまとまれたデータから興味ある知見を引き出すためのプロセスである。歴史的なEDAの定義については下記のサイトが詳しい。
http://www.creative-wisdom.com/teaching/WBI/EDA.shtml
このサイトによるとEDAを構成するのは下記の4つである。
- visualization
- 残差分析
- transformation
- resistant分析
Visualizationがなぜ重要なのか。それはこのサイトで詳細に説明されてる。ロンドンでペストが発生したときに発生件数と地図をマッピングしたら原因を特定できた逸話は有名である。
https://www.dashingd3js.com/why-data-visualizations
EDAについてもう少し現在のアプローチはこちらに記載されている。Irisデータなどを用いたEDAについても説明されている。
http://datascienceguide.github.io/exploratory-data-analysis
EDAからどのように知見を引き出すのか。こちらのサイトではkaggleで利用できるデータをグラフ化してそこから分析を加えている。
https://www.kaggle.com/jasonbaik94/exploratory-data-visualization-python-vs-r
最後にとりあえず、エイヤでEDAをしてしまえというのがこちら。
https://www.r-bloggers.com/a-quick-and-dirty-guide-to-exploratory-data-visualization/