我有一個嚴重的問題:我已經下載NLTK 的最後一個版本,我得到一個奇怪的POS輸出: import nltk
import re
sample_text="start please with me"
tokenized = nltk.sent_tokenize(sample_text)
for i in tokenized:
words=nltk.word_tokeniz
當我嘗試訓練一個有40K句子的語料庫時,沒有任何問題。但是,當我訓練86K的句子,我得到的錯誤是這樣的: ERROR:root:
Traceback (most recent call last):
File "CLC_POS_train.py", line 95, in main
train(sys.argv[10], encoding, flag_tagger, k, p
我學會使用polyglot爲POS標籤提供印度尼西亞文本。 import polyglot
from polyglot.text import Text, Word
text=Text("Menurut dia, Syahganda, dikenal sebagai penggiat isu-isu pertanahan serta perburuhan.")
print text.pos