科学・IＴ・登山の話題

janomeで品詞を解析する

投稿日：2018年10月26日


import sys
import os
from glob import glob
from janome.tokenizer import Tokenizer

def main():

t = Tokenizer()

print('Target Directory:' + os.path.join(input_dir, '*'))

for path in glob(os.path.join(input_dir, 'ja*')):
  print('Processing {0}...'.format(path), file=sys.stderr)
  with open(path, encoding='utf-8') as file:
    txt = file.read()
    for token in t.tokenize(txt, stream=True):
      print("----" + str(token))
      print(token.part_of_speech)

if __name__=='__main__':
  main()

執筆者：admin

comment コメントをキャンセル

: pycharmでターミナルからconda環境を利用する

pycharmでTerminalを開く conda環境を開く %windir%\System32\cmd.exe “/K” C:\ProgramData\Anaconda3\S …

: 配列の属性を確認

numpyでは生成した配列の中身を確認するための属性が用意されている。主な属性は以下の通り次元数を確認:ndarray.ndim 各次元の大きさを確認:ndarray.shape 全部の要素数:n …

: numpy.random.standard_normal()を使って標準分布の配列を生成する

numpy.random numpyにはいろいろな種類の分布関数から配列をランダムに生成するモジュールが用意されている。このモジュールはnumpy.randomと呼ばれる。マニュアルはこちら : R …

: model.coef_の確認

重回帰分析で重みを確認するには下記を利用する。 model.coef_ ただしこれだと有効桁数が分かりにくいので有効桁数を３桁にして、さらに指数を展開する。 np.set_printoptions(p …

: グラフの軸を操作する

概要ここでは以下の項目について取り扱う軸にラベルを設定するー xlabel, ylabel 軸の最小値、最大値を設定するー xlim, ylim, xaxis 軸にメモリを設定するー xti …

PREV: pythonでjanomeを使う
NEXT: RoboBrowserでUser Agentが原因ではねられているとき

2018年10月
月	火	水	木	金	土	日
« 9月		11月 »
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

GIMPでForeground color pickerが正しくない色をピックアップするときの対応方法 2021年9月7日
lerpとslerpの違い 2021年8月5日
シェーダーとは 2021年8月3日
Unityの座標系についてメモ 2021年7月1日
ALLとREMOVEFILTERSの違い 2021年6月28日

janomeで品詞を解析する

Related posts: