0
我在Python上使用NLTK。我想從txt讀取使用default,unigram和pos tagger。然而,我沒有這樣做,因爲沒有特定的txt導入標籤。例如,在課堂上,我們正在使用準備好的語料庫,比如棕色等。我的問題是如何使用標記符導入方法。最終,我希望看到評估每個標記器的性能。從txt讀取NLTK標記器
我在Python上使用NLTK。我想從txt讀取使用default,unigram和pos tagger。然而,我沒有這樣做,因爲沒有特定的txt導入標籤。例如,在課堂上,我們正在使用準備好的語料庫,比如棕色等。我的問題是如何使用標記符導入方法。最終,我希望看到評估每個標記器的性能。從txt讀取NLTK標記器
閱讀這樣的文件:
f = open('your-file.txt', 'rU') # U is for Unicode
raw = f.read()
tokens = nltk.word_tokenize(raw)
一旦你有你可以標記它進行標記化文本,例如:
def_tagger = nltk.DefaultTagger('NN')
def_tagger.tag(tokens)
,這將(作爲一個例子)標籤每令牌爲NN。爲了評價它,你會需要一個標籤手動分配到每個字,然後:
def_tagger.evaluate(you_manual_tagged_sents)
這將返回介於0(非常糟糕)和1(完全匹配)的數字。