科学の箱

科学・IT・登山の話題

Python

タイタニックデータでEDA-2

投稿日:2018年4月18日 更新日:

前回は、タイタニックデータについてはビジュアライズしてデータについて理解を深めた。

今回はデータをいじって機械学習に使えるようにする。

機械学習をするために必要な処理は3つある。

  1. null値の置換
  2. 余計な列の削除
  3. 余計な行の削除
  4. カテゴラル値の変換

null値の変換

null値の取り扱いには2つの方法がある。

  • 値の推測が可能であれば、特定のルールにより値を挿入してあげる
  • 別の列を作り、該当列と、推測した値を組み合わせて利用する
  • nullの行をドロップしてしまう。

余計な列の削除


d_train.drop('Cabin',axis=1,inplace=True)

d_train.drop('Name', axis=1,inplace=True)

余計な行の削除


d_train.dropna(inplace=True)

カテゴラル値の変換


sex = pd.get_dummies(d_train['Sex'],drop_first=True)

embark = pd.get_dummies(d_train['Embarked'],drop_first=True)

d_train.drop(['Sex','Embarked'],axis=1,inplace=True)

d_train = pd.concat([d_train,sex,embark],axis=1)

 

 

メタ情報

inarticle



メタ情報

inarticle



-Python

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

SIGNATE お弁当の需要予測-3

Seabornを利用してデータをビジュアル化してみる。 まずは売り上げの分布図から sns.distplot(d_train[‘y’], kde=False, rug=False, bins=50) …

no image

pandaの基本中の基本操作

numpyとpandaのインポート import numpy as np import pandas as pd 前準備 labels = [‘a’, ‘b’, ‘c’] mydata = [10,2 …

no image

pythonからgoogle translateを使う

まずはパッケージをpip経由でインストール pip install googletrans これで完了。あとは利用するだけです。 日本語を英語に翻訳するとき。 translator = Transla …

no image

automated the boring – day 3

https://automatetheboringstuff.com/ 今回はまずは文字列操作から。とりあえず基本のところを押さえておく。 print("Hello there!\nHow …

no image

janomeで品詞を解析する

  import sys import os from glob import glob from janome.tokenizer import Tokenizer def main(): …

2018年4月
« 3月   5月 »
 1
2345678
9101112131415
16171819202122
23242526272829
30  

side bar top



アーカイブ

カテゴリー