科学の箱

科学・IT・登山の話題

Python

タイタニックデータでEDA-2

投稿日:2018年4月18日 更新日:

前回は、タイタニックデータについてはビジュアライズしてデータについて理解を深めた。

今回はデータをいじって機械学習に使えるようにする。

機械学習をするために必要な処理は3つある。

  1. null値の置換
  2. 余計な列の削除
  3. 余計な行の削除
  4. カテゴラル値の変換

null値の変換

null値の取り扱いには2つの方法がある。

  • 値の推測が可能であれば、特定のルールにより値を挿入してあげる
  • 別の列を作り、該当列と、推測した値を組み合わせて利用する
  • nullの行をドロップしてしまう。

余計な列の削除


d_train.drop('Cabin',axis=1,inplace=True)

d_train.drop('Name', axis=1,inplace=True)

余計な行の削除


d_train.dropna(inplace=True)

カテゴラル値の変換


sex = pd.get_dummies(d_train['Sex'],drop_first=True)

embark = pd.get_dummies(d_train['Embarked'],drop_first=True)

d_train.drop(['Sex','Embarked'],axis=1,inplace=True)

d_train = pd.concat([d_train,sex,embark],axis=1)

 

 

メタ情報

inarticle



メタ情報

inarticle



-Python

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

pyperclipを設定する

pyperclipはpip3経由でインストールする。まずはpip3のインストールから。 https://bootstrap.pypa.io/get-pip.pyからget-pip.pyをダウンロードし …

no image

python virtualenvの使い方

pip3 install virtualenv virtualenv myenv myenv/Scripts/activate Related posts:Numpyまとめすべての要素が同じ値を持つ配 …

no image

cp932 error

pythonで入力ファイルにおける文字コードが正しく認識されない場合、以下のようなエラーがでる。 UnicodeDecodeError: ‘cp932’ codec can&# …

no image

Hello Worldを実行

環境設定を完了したらまずはお約束のHello Worldからである。 変数helloに文字列”Hello Python!”を代入する。Pythonにおいては型の指定は最初のうち …

no image

RoboBrowserでUser Agentが原因ではねられているとき

RoboBrowserを利用していると通常のブラウザでリクエストした時とは異なりエラーがページが返ってくることが多い。 原因はいくつかあるがまず試したいのはUser-Agentの設定。 RoboBro …

2018年4月
« 3月   5月 »
 1
2345678
9101112131415
16171819202122
23242526272829
30  

side bar top



アーカイブ

カテゴリー