科学の箱

科学・IT・登山の話題

Python

タイタニックデータでEDA-2

投稿日:2018年4月18日 更新日:

前回は、タイタニックデータについてはビジュアライズしてデータについて理解を深めた。

今回はデータをいじって機械学習に使えるようにする。

機械学習をするために必要な処理は3つある。

  1. null値の置換
  2. 余計な列の削除
  3. 余計な行の削除
  4. カテゴラル値の変換

null値の変換

null値の取り扱いには2つの方法がある。

  • 値の推測が可能であれば、特定のルールにより値を挿入してあげる
  • 別の列を作り、該当列と、推測した値を組み合わせて利用する
  • nullの行をドロップしてしまう。

余計な列の削除


d_train.drop('Cabin',axis=1,inplace=True)

d_train.drop('Name', axis=1,inplace=True)

余計な行の削除


d_train.dropna(inplace=True)

カテゴラル値の変換


sex = pd.get_dummies(d_train['Sex'],drop_first=True)

embark = pd.get_dummies(d_train['Embarked'],drop_first=True)

d_train.drop(['Sex','Embarked'],axis=1,inplace=True)

d_train = pd.concat([d_train,sex,embark],axis=1)

 

 

メタ情報

inarticle



メタ情報

inarticle



-Python

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

初めてのmatplotlib

matplotlibを使えばpythonで様々なグラフをデータから作成できる。初めてのmatplotlibということで、単純なグラフを作成する。 まずはmatplotlibを読み込む >> …

no image

Hello Worldを実行

環境設定を完了したらまずはお約束のHello Worldからである。 変数helloに文字列”Hello Python!”を代入する。Pythonにおいては型の指定は最初のうち …

no image

単回帰でデータフレームの形式を整える

values.reshape(-1, 1)が必要。 Related posts:グリッドサーチkaggle Titanic Tutorial – 5カテゴリデータのビジュアル

no image

automated the boring – day 3

https://automatetheboringstuff.com/ 今回はまずは文字列操作から。とりあえず基本のところを押さえておく。 print("Hello there!\nHow …

no image

pyplotでx軸のラベルを90度回転させる

pyplotでx軸にラベルを記載するとラベル文字数が長すぎるためにお互いにオーバーラップしてみにくい。 このよう場合にはpyplot.xticksを実行する際にrotationを指定すればよい。 Ro …

2018年4月
« 3月   5月 »
 1
2345678
9101112131415
16171819202122
23242526272829
30  

side bar top



最近の投稿

アーカイブ

カテゴリー