科学の箱

科学・IT・登山の話題

Python

cp932 error

投稿日:2018年11月7日 更新日:

pythonで入力ファイルにおける文字コードが正しく認識されない場合、以下のようなエラーがでる。

UnicodeDecodeError: ‘cp932’ codec can’t decode byte 0x98 in position 8107: illegal multibyte sequence

このエラーはUTF-8のファイルをcp932で読み込む場合に起きやすい。

対応法方法としては2つある。

  1. 入力ファイルをSJISに変換
  2. 入力ファイルをbinaryモードで読み込み、適切なdecodeをかける。

2は例えば以下のようなコードになる。

messages = [line.decode(‘utf-8’).rstrip() for line in open(‘smsspamcollection/SMSSpamCollection’, ‘rb’)]

メタ情報

inarticle



メタ情報

inarticle



-Python

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

SIGNATE お弁当の需要予測-4

今回はSeabornのpairplotを利用して相関の概要を見てみる。ただし相関を見るためにはデータのクレンジングが必要。 まずはnullデータのヒートマップを確認してみる。 sns.heatmap( …

no image

scikit-learnで適切なアルゴリズムを選択するためのチートシート

  http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html Related posts:python …

no image

Python + Slack Bot – 2

Slackのチャネルに投稿するにはChanel IDが必要。 Chanel IDは下記から取得できる。 https://api.slack.com/methods/channels.list/test …

no image

numpy.arange()を使って等差数列を生成する

等差数列を作るためにはnumpy.linspace()を使うと話をした。しかしlinspace()は要素数を指定するためにかえって混乱を招くことがある。そこで便利なのが公差を指定して配列を作ってくくれ …

no image

初めてのmatplotlib

matplotlibを使えばpythonで様々なグラフをデータから作成できる。初めてのmatplotlibということで、単純なグラフを作成する。 まずはmatplotlibを読み込む >> …

2018年11月
« 10月   12月 »
 1234
567891011
12131415161718
19202122232425
2627282930  

side bar top



アーカイブ

カテゴリー