科学の箱

科学・IT・登山の話題

機械学習

Exploratory Data Analysis

投稿日:2018年3月21日 更新日:

データを取得した後にやることは、データの構造化とクレンジング。それが完了したらData Exploratory Analysisに入る。

Exloratory Data Analysis(EDA)に関しては下記のサイトでよくまとまっている。EDAはJohn Turkeyによってまとまれたデータから興味ある知見を引き出すためのプロセスである。歴史的なEDAの定義については下記のサイトが詳しい。

http://www.creative-wisdom.com/teaching/WBI/EDA.shtml

このサイトによるとEDAを構成するのは下記の4つである。

  1. visualization
  2. 残差分析
  3. transformation
  4. resistant分析

Visualizationがなぜ重要なのか。それはこのサイトで詳細に説明されてる。ロンドンでペストが発生したときに発生件数と地図をマッピングしたら原因を特定できた逸話は有名である。

https://www.dashingd3js.com/why-data-visualizations

EDAについてもう少し現在のアプローチはこちらに記載されている。Irisデータなどを用いたEDAについても説明されている。

http://datascienceguide.github.io/exploratory-data-analysis

EDAからどのように知見を引き出すのか。こちらのサイトではkaggleで利用できるデータをグラフ化してそこから分析を加えている。

https://www.kaggle.com/jasonbaik94/exploratory-data-visualization-python-vs-r

最後にとりあえず、エイヤでEDAをしてしまえというのがこちら。

https://www.r-bloggers.com/a-quick-and-dirty-guide-to-exploratory-data-visualization/

メタ情報

inarticle



メタ情報

inarticle



-機械学習

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

仕事で始める機械学習 – 2.機械学習で何ができるか – 分類 – パーセプトロン

パーセプトロン 判別式 それぞれのデータに対して重みづけした値 ヒンジ損失 パーセプトロンの損失関数をヒンジ損失という。パーセプトロン基準とも呼ばれる。 sum(wx) 状態 ラベル label*su …

no image

会社を変える分析の力

ユーザに関する問題 不確実性 過剰期待 事前期待 分析モデルの利用 パターン 変数の数 分析の利用 予測 判別 グループ 検知 最適化 発見 探索 データ分析の必要性 なぜ誤差がでるのか Costは …

no image

irisでPCAを実行し可視化

irisデータをPCAで2次元に分類して可視化してみる。 内容 準備及びデータの前処理 PCA プロット   準備及びデータの前処理 irisデータを読み込み、PCAを実行するための前処理を …

no image

仕事で始める機械学習 – 2.機械学習で何ができるか – 分類 – ロジスティック回帰

ロジスティック回帰 確率を得るために パーセプトロンの判別式により確率をとることはできない。パーセプトロンのヒンジ損失は正負のみを判断し、間違っている場合だけパラメータの更新をする。つまりぎりぎりで正 …

no image

線形回帰と最急降下法

線形回帰 世の中の様々な出来事(y)はある事象(x)に対して比例することが多い。もちろん厳密に比例するわけではなくずれは生じる。しかしこのxとyが比例すると仮定した場合、中学校で習った一次式でこの関係 …

2018年3月
« 2月   4月 »
 1234
567891011
12131415161718
19202122232425
262728293031  

side bar top



アーカイブ

カテゴリー