科学・IＴ・登山の話題

Exploratory Data Analysis

投稿日：2018年3月21日更新日：2019年9月22日

データを取得した後にやることは、データの構造化とクレンジング。それが完了したらData Exploratory Analysisに入る。

Exloratory Data Analysis(EDA)に関しては下記のサイトでよくまとまっている。EDAはJohn Turkeyによってまとまれたデータから興味ある知見を引き出すためのプロセスである。歴史的なEDAの定義については下記のサイトが詳しい。

http://www.creative-wisdom.com/teaching/WBI/EDA.shtml

このサイトによるとEDAを構成するのは下記の4つである。

visualization
残差分析
transformation
resistant分析

Visualizationがなぜ重要なのか。それはこのサイトで詳細に説明されてる。ロンドンでペストが発生したときに発生件数と地図をマッピングしたら原因を特定できた逸話は有名である。

https://www.dashingd3js.com/why-data-visualizations

EDAについてもう少し現在のアプローチはこちらに記載されている。Irisデータなどを用いたEDAについても説明されている。

http://datascienceguide.github.io/exploratory-data-analysis

EDAからどのように知見を引き出すのか。こちらのサイトではkaggleで利用できるデータをグラフ化してそこから分析を加えている。

https://www.kaggle.com/jasonbaik94/exploratory-data-visualization-python-vs-r

最後にとりあえず、エイヤでEDAをしてしまえというのがこちら。

https://www.r-bloggers.com/a-quick-and-dirty-guide-to-exploratory-data-visualization/

Related posts:

Core Concept in Data Analysis - Week 5

SVMでグリッドサーチ

執筆者：admin

comment コメントをキャンセル

関連記事

: 多変量解析

多変量解析の分類回帰分析ロジスティック分析判別分析主成分分析因子分析共分散クラスタリング共分散 Sxy = Σ(Xi – X~)(Yi – Y~) / n 共分 …

: ウェブ分析をハンズオンで学ぶ

ウェブ分析の本を読んでもあまりあたまに入ってこない。実際に手を動かさないと、身につかないわけである。ということでハンズオンで実践して見ることにした。ハンズオンで実践するに当たり必要なのはデータとツー …

: 判別式

判別式の手順散布図をプロットしてみてグループに分けることができるかを検討する判別式のモデル（線形判別、マハラノビスなど）を検討するデータを読み込み判別式テンプレートを作成する判別式を作成する …

: データ取り込み後に確認すること

# tidyデータの原則 # 1カラム = 1変数 # 1行 = 1観察 # 1テーブル = 1 unique key # foreign key to link # テーブル全体で見ること # カラ …

: 線形回帰とリッジ回帰とラッソ回帰の違い

用語線形回帰データから平均二乗誤差を最低にするパラメータΘを求めて、直線で回帰すること $$ y = Θ_0 + Θ_1 \times x $$ コスト関数損失関数とも呼ばれる。実際のデータと予 …

PREV: 初めてのmatplotlib
NEXT: pythonでEDAを実施する - 記述統計

GIMPでForeground color pickerが正しくない色をピックアップするときの対応方法 2021年9月7日
lerpとslerpの違い 2021年8月5日
シェーダーとは 2021年8月3日
Unityの座標系についてメモ 2021年7月1日
ALLとREMOVEFILTERSの違い 2021年6月28日