科学の箱

科学・IT・登山の話題

Python

janomeで品詞を解析する

投稿日:

 


import sys
import os
from glob import glob
from janome.tokenizer import Tokenizer

def main():

t = Tokenizer()

print('Target Directory:' + os.path.join(input_dir, '*'))

for path in glob(os.path.join(input_dir, 'ja*')):
  print('Processing {0}...'.format(path), file=sys.stderr)
  with open(path, encoding='utf-8') as file:
    txt = file.read()
    for token in t.tokenize(txt, stream=True):
      print("----" + str(token))
      print(token.part_of_speech)

if __name__=='__main__':
  main()

メタ情報

inarticle



メタ情報

inarticle



-Python

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

automated the boring – day4

本日からOS操作。面倒くさいことを自動化するのであればOSコマンドは避けては通れない。 pythonではすでにosパッケージが用意されているので、これを利用すればコードとしてはそれほどはややこしくない …

no image

数字、計算、文字列を画面出力

Hello Worldができたので、いろいろな出力を試してみる。 出力はprint関数を使えばよい。 まずは数値から試してみる。数値は文字列と違い引用符で囲む必要はない。画面に直接表示するので変数は使 …

no image

単回帰でデータフレームの形式を整える

values.reshape(-1, 1)が必要。 Related posts:kaggle Titanic Tutorial – 10graphvizのコマンドラインから実行すべての要素が同じ値を持 …

no image

スライスとインデックスを組み合わせてデータを抜き出す

行列からデータを取得する際には、インデックスを利用すことはわかった。このインデックスの種類としては整数、スライス、配列、ブーリアンがある。これらを組み合わせて柔軟に配列から要素を抜き出すことができる。 …

no image

連続データのビジュアル

Kaggle TitanicのFareを使っていくつかビジュアル 金額別ヒストグラム-1 titanic_df[‘Fare’].plot(kind=’hist’, figsize=(15,3),bin …

2018年10月
« 9月   11月 »
1234567
891011121314
15161718192021
22232425262728
293031  

side bar top



アーカイブ

カテゴリー