科学の箱

科学・IT・登山の話題

Python

dataframe形式で便利なのはいろいろなメソッドが用意されているから

投稿日:

dataframeにすることのメリットは何かといわれると、dataframeにしたとたんに様々な処理をメソッドで実行できるからである。

例えば値がNaNになっていると、処理を進めるうえでいろいろな問題がある。この時にdataframeにしておけば、除外、置換などが簡単にできる。

まずはNaNを持つサンプルdataframeを作成する。


import numpy as np
import pandas as pd
d = {'A':[1,2,np.nan], 'B':[5,np.nan, np.nan], 'C':[1,2,3]}
df = pd.DataFrame(d)
df

この結果としてNaNをもつdataframeが作成される。

A B C
0 1.0 5.0 1
1 2.0 NaN 2
2 NaN NaN 3

まずはNaNをもつ行を除外する。


df.dropna()

A B C
0 1.0 5.0 1

次にNaNを埋めて処理を進めやすくする。


df.fillna(value=0)

A B C
0 1.0 5.0 1
1 2.0 0.0 2
2 0.0 0.0 3

 

メタ情報

inarticle



メタ情報

inarticle



-Python
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

pythonでjanomeを使う

PythonでMecabを利用して形態要素解析に挑戦したところMecabが原因不明のエラーを引き起こしいったん断念。 代わりにJanomeを導入してみた。 Janomeは下記からインストーラを取得する …

no image

SIGNATE お弁当の需要予測-4

今回はSeabornのpairplotを利用して相関の概要を見てみる。ただし相関を見るためにはデータのクレンジングが必要。 まずはnullデータのヒートマップを確認してみる。 sns.heatmap( …

no image

matplotlibでfigureを利用する

matplotlibでfigureオブジェクトを利用するとグラフを表示する位置を細かく指定できる。 まずはfigureを使ってグラフを一つ表示してみる。 >>> import mat …

no image

numpy.random.standard_normal()を使って標準分布の配列を生成する

numpy.random numpyにはいろいろな種類の分布関数から配列をランダムに生成するモジュールが用意されている。このモジュールはnumpy.randomと呼ばれる。 マニュアルはこちら : R …

no image

グリッドサーチ

機械学習のアルゴリズムを利用する際に一つの問題がパラメータの最適化。例えばSVMではガンマパラメータを適切に設定しないと結果は使い物にならないことがある。このパラメータは自分で設定する方法もあるが、P …

2018年3月
« 2月   4月 »
 1234
567891011
12131415161718
19202122232425
262728293031  

side bar top



アーカイブ

カテゴリー