PythonでMecabを利用して形態要素解析に挑戦したところMecabが原因不明のエラーを引き起こしいったん断念。
代わりにJanomeを導入してみた。
Janomeは下記からインストーラを取得する。
https://github.com/mocobeta/janome
pip installがSSLエラーにより利用できないためにzipでダウンロード。
解凍したファイルを適当な場所に置く。
condaのコマンドプロンプトから上記で指定したフォルダに移動する。
python setup.py install
まずはinteractive画面で試す。
>>> from janome.tokenizer import Tokenizer
>>> t = Tokenizer()
>>> for token in t.tokenize(u’すもももももももものうち’):
… print(token)
…
すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
も 助詞,係助詞,*,*,*,*,も,モ,モ
もも 名詞,一般,*,*,*,*,もも,モモ,モモ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
>>>