科学の箱

科学・IT・登山の話題

Python

pythonでjanomeを使う

投稿日:2018年10月22日 更新日:

PythonでMecabを利用して形態要素解析に挑戦したところMecabが原因不明のエラーを引き起こしいったん断念。

代わりにJanomeを導入してみた。

Janomeは下記からインストーラを取得する。

https://github.com/mocobeta/janome

pip installがSSLエラーにより利用できないためにzipでダウンロード。

解凍したファイルを適当な場所に置く。

condaのコマンドプロンプトから上記で指定したフォルダに移動する。

python setup.py install

まずはinteractive画面で試す。

>>> from janome.tokenizer import Tokenizer
>>> t = Tokenizer()
>>> for token in t.tokenize(u’すもももももももものうち’):
… print(token)

すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
>>>

 

メタ情報

inarticle



メタ情報

inarticle



-Python
-

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

タイタニックデータでEDA-2

前回は、タイタニックデータについてはビジュアライズしてデータについて理解を深めた。 今回はデータをいじって機械学習に使えるようにする。 機械学習をするために必要な処理は3つある。 null値の置換 余 …

no image

pandaの基本中の基本操作

numpyとpandaのインポート import numpy as np import pandas as pd 前準備 labels = [‘a’, ‘b’, ‘c’] mydata = [10,2 …

no image

automated the boring – day7

https://automatetheboringstuff.com/chapter14/ 14章ではcsvとJSONを取り扱う。フォーマットとしては単純であるのに、なぜexcel,word, pdf …

no image

Python + Slack Bot – 3

さてリアルタイムでとりあえずうまくいったので、もう少し違うサンプルコードを試してみる。 参考にしたのはこちら。 https://www.fullstackpython.com/blog/build-f …

no image

スライスとインデックスを組み合わせてデータを抜き出す

行列からデータを取得する際には、インデックスを利用すことはわかった。このインデックスの種類としては整数、スライス、配列、ブーリアンがある。これらを組み合わせて柔軟に配列から要素を抜き出すことができる。 …

2018年10月
« 9月   11月 »
1234567
891011121314
15161718192021
22232425262728
293031  

side bar top



最近の投稿

アーカイブ

カテゴリー