科学の箱

科学・IT・登山の話題

Python

cp932 error

投稿日:2018年11月7日 更新日:

pythonで入力ファイルにおける文字コードが正しく認識されない場合、以下のようなエラーがでる。

UnicodeDecodeError: ‘cp932’ codec can’t decode byte 0x98 in position 8107: illegal multibyte sequence

このエラーはUTF-8のファイルをcp932で読み込む場合に起きやすい。

対応法方法としては2つある。

  1. 入力ファイルをSJISに変換
  2. 入力ファイルをbinaryモードで読み込み、適切なdecodeをかける。

2は例えば以下のようなコードになる。

messages = [line.decode(‘utf-8’).rstrip() for line in open(‘smsspamcollection/SMSSpamCollection’, ‘rb’)]

メタ情報

inarticle



メタ情報

inarticle



-Python

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

Python + Slack Bot – 3

さてリアルタイムでとりあえずうまくいったので、もう少し違うサンプルコードを試してみる。 参考にしたのはこちら。 https://www.fullstackpython.com/blog/build-f …

no image

numpy.random.standard_normal()を使って標準分布の配列を生成する

numpy.random numpyにはいろいろな種類の分布関数から配列をランダムに生成するモジュールが用意されている。このモジュールはnumpy.randomと呼ばれる。 マニュアルはこちら : R …

no image

requests.exceptions.SSLError: HTTPSConnectionPoolの対応方法

エラー raise SSLError(e, request=request) requests.exceptions.SSLError: HTTPSConnectionPool(host=&#8217 …

no image

dataframe形式で便利なのはいろいろなメソッドが用意されているから

dataframeにすることのメリットは何かといわれると、dataframeにしたとたんに様々な処理をメソッドで実行できるからである。 例えば値がNaNになっていると、処理を進めるうえでいろいろな問題 …

no image

OpenCV

WindowsにOpenCVをインストールする場合に2つのやり方がある。 一つは様々な言語からOpenCVを利用できるようにする方法、2つ目の方法ではPythonからOpenCVを利用する方法である。 …

2018年11月
« 10月   12月 »
 1234
567891011
12131415161718
19202122232425
2627282930  

side bar top



アーカイブ

カテゴリー