科学の箱

科学・IT・登山の話題

Python

kaggle Titanic Tutorial – 5

投稿日:2018年5月26日 更新日:

ファミリーサイズを追加してみる。

ソースはこちらを参照した。

https://www.kaggle.com/lperez/titanic-a-deeper-look-on-family-size

主要な変更部分だけ記載

まずはfamilysizeを作成する


d_train = pd.read_csv('train.csv')
d_test = pd.read_csv('test.csv')

d_train['title'] = d_train['Name'].apply(get_title).map(Title_Dictionary)
d_test['title'] = d_test['Name'].apply(get_title).map(Title_Dictionary)
d_train['FamilySize'] = d_train['SibSp'] + d_train['Parch'] + 1
d_test['FamilySize'] = d_test['SibSp'] + d_test['Parch'] + 1

ParchとSibSpはどろっぷ


d_train = d_train.drop(['PassengerId','Name','Ticket','Cabin', 'Parch','SibSp'], axis=1)

分析にFamilySizeを追加、ParchとSibSpを削除する。


x_train = d_train[["Pclass", "Sex", "Age", "Fare", "Embarked", "FamilySize", "title"]].values
x_test = d_test[["Pclass", "Sex", "Age", "Fare", "Embarked", "FamilySize", "title"]].values

from sklearn.tree import DecisionTreeClassifier
dtree = DecisionTreeClassifier(max_depth=8)
dtree.fit(x_train,y_train)

predictions = dtree.predict(x_test)

ようやく6000番台に突入。

メタ情報

inarticle



メタ情報

inarticle



-Python
-,

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

配列を利用した四則演算とuniversal関数

四則演算 import numpy as np arr = np.arange(1,11) arr arr + arr arr * arr arr – 100 arr – arr [/cde] np. …

no image

graphvizによる決定木の表示

graphvizの実行ファイルをインストール https://graphviz.gitlab.io/_pages/Download/Download_windows.html pythonにgraph …

no image

複数のグラフを表示する方法

ここでは以下を説明する。 複数のグラフを表示する2つの方法 サブプロットのグラフを整形 複数のグラフを表示する 複数のグラフを表示するためには二通りの方法がある。 subplots()を使ってあらかじ …

no image

numpy.arange()を使って等差数列を生成する

等差数列を作るためにはnumpy.linspace()を使うと話をした。しかしlinspace()は要素数を指定するためにかえって混乱を招くことがある。そこで便利なのが公差を指定して配列を作ってくくれ …

no image

pythonからgoogle translateを使う

まずはパッケージをpip経由でインストール pip install googletrans これで完了。あとは利用するだけです。 日本語を英語に翻訳するとき。 translator = Transla …

2018年5月
« 4月   6月 »
 123456
78910111213
14151617181920
21222324252627
28293031  

side bar top



アーカイブ

カテゴリー