我一直在做一些自然語言處理工作。我怎樣才能標記德語文本?
對於英文POS標記,它很簡單,因爲我只需要使用內置的nltk函數。我想同樣處理德語文本。
由於NLTK沒有德國內置的功能,我使用斯坦福POSTagger嘗試:
from nltk.tag.stanford import StanfordPOSTagger
import os
import nltk
java_path = "C:/Program Files/Java/jdk1.8.0_71/bin/java.exe"
os.environ['JAVAHOME'] = java_path
sentence = "Man könnte Klöckner vorhalten, sich an ihre eigenen Appelle nicht zu halten. Doch niemand in der Union wagte das. Nicht einmal die von ihr attackierten Briefschreiber. Klöckner genießt im Moment Narrenfreiheit."
tokens = nltk.word_tokenize(sentence, 'german')
german_postagger1 = StanfordPOSTagger(r'E:/python/nlptest/models/german-hgc.tagger', r'E:/python/nlptest/stanford-postagger.jar')
gp1 = german_postagger1.tag(tokens)
它需要近7秒完成處理,這是無法忍受的我。
我也試過模塊Pattern,但它不支持Python 3,我使用Python 3.4。
是否有替代和更快的POS標籤德語句子?
無恥的插頭? :)酷工具。 – erip
@erip哎呦忘了補充一點。已更新回答=) – alvas