科学の箱

科学・IT・登山の話題

Python

janomeで品詞を解析する

投稿日:

 


import sys
import os
from glob import glob
from janome.tokenizer import Tokenizer

def main():

t = Tokenizer()

print('Target Directory:' + os.path.join(input_dir, '*'))

for path in glob(os.path.join(input_dir, 'ja*')):
  print('Processing {0}...'.format(path), file=sys.stderr)
  with open(path, encoding='utf-8') as file:
    txt = file.read()
    for token in t.tokenize(txt, stream=True):
      print("----" + str(token))
      print(token.part_of_speech)

if __name__=='__main__':
  main()

メタ情報

inarticle



メタ情報

inarticle



-Python

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

連続データのビジュアル

Kaggle TitanicのFareを使っていくつかビジュアル 金額別ヒストグラム-1 titanic_df[‘Fare’].plot(kind=’hist’, figsize=(15,3),bin …

no image

初めてのmatplotlib

matplotlibを使えばpythonで様々なグラフをデータから作成できる。初めてのmatplotlibということで、単純なグラフを作成する。 まずはmatplotlibを読み込む >> …

no image

スライスとインデックスを組み合わせてデータを抜き出す

行列からデータを取得する際には、インデックスを利用すことはわかった。このインデックスの種類としては整数、スライス、配列、ブーリアンがある。これらを組み合わせて柔軟に配列から要素を抜き出すことができる。 …

no image

automated the boring

まずは肩慣らし print(‘Hello world!’) print(‘What is your name?’) # ask for their na …

no image

pyplotでグラフを表示

matplotlib.pyplotを利用すると、配列からお手軽にグラフを作成できる。 内容 最もシンプルなグラフ タイトル ラベル、レジェンドを追加 線の種類を変える 最もシンプルなグラフ まずはpy …

2018年10月
« 9月   11月 »
1234567
891011121314
15161718192021
22232425262728
293031  

side bar top



アーカイブ

カテゴリー