科学の箱

科学・IT・登山の話題

Python

タイタニックデータでEDA-2

投稿日:2018年4月18日 更新日:

前回は、タイタニックデータについてはビジュアライズしてデータについて理解を深めた。

今回はデータをいじって機械学習に使えるようにする。

機械学習をするために必要な処理は3つある。

  1. null値の置換
  2. 余計な列の削除
  3. 余計な行の削除
  4. カテゴラル値の変換

null値の変換

null値の取り扱いには2つの方法がある。

  • 値の推測が可能であれば、特定のルールにより値を挿入してあげる
  • 別の列を作り、該当列と、推測した値を組み合わせて利用する
  • nullの行をドロップしてしまう。

余計な列の削除


d_train.drop('Cabin',axis=1,inplace=True)

d_train.drop('Name', axis=1,inplace=True)

余計な行の削除


d_train.dropna(inplace=True)

カテゴラル値の変換


sex = pd.get_dummies(d_train['Sex'],drop_first=True)

embark = pd.get_dummies(d_train['Embarked'],drop_first=True)

d_train.drop(['Sex','Embarked'],axis=1,inplace=True)

d_train = pd.concat([d_train,sex,embark],axis=1)

 

 

メタ情報

inarticle



メタ情報

inarticle



-Python

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

matplotlibでfigureを利用する

matplotlibでfigureオブジェクトを利用するとグラフを表示する位置を細かく指定できる。 まずはfigureを使ってグラフを一つ表示してみる。 >>> import mat …

no image

janomeで品詞を解析する

  import sys import os from glob import glob from janome.tokenizer import Tokenizer def main(): …

no image

numpyで三角関数の数値計算をしてみる

numpyで三角関数の数値計算をしてみる。 ここでは以下を説明する。 三角関数 逆三角関数 角度とラジアンの変換 三角関数 numpyでサイン、コサイン、タンジェントの計算をするためにはnumpy.s …

no image

グラフの軸を操作する

概要 ここでは以下の項目について取り扱う 軸にラベルを設定する ー xlabel, ylabel 軸の最小値、最大値を設定する ー xlim, ylim, xaxis 軸にメモリを設定する ー xti …

no image

tensorflowをpipでインストールするときのオプション

tensorflow環境を構築するときにはpipを利用すると簡単である。pipの簡単な使い方としてはinstallオプションを指定すればよい。 pip install tensoflow しかしこのオ …

2018年4月
« 3月   5月 »
 1
2345678
9101112131415
16171819202122
23242526272829
30  

side bar top



アーカイブ

カテゴリー