2016-03-09 64 views
0

我在Python上使用NLTK。我想從txt讀取使用default,unigram和pos tagger。然而,我沒有這樣做,因爲沒有特定的txt導入標籤。例如,在課堂上,我們正在使用準備好的語料庫,比如棕色等。我的問題是如何使用標記符導入方法。最終,我希望看到評估每個標記器的性能。從txt讀取NLTK標記器

回答

0

閱讀這樣的文件:

f = open('your-file.txt', 'rU') # U is for Unicode 
raw = f.read() 
tokens = nltk.word_tokenize(raw) 

一旦你有你可以標記它進行標記化文本,例如:

def_tagger = nltk.DefaultTagger('NN') 
def_tagger.tag(tokens) 

,這將(作爲一個例子)標籤每令牌爲NN。爲了評價它,你會需要一個標籤手動分配到每個字,然後:

def_tagger.evaluate(you_manual_tagged_sents) 

這將返回介於0(非常糟糕)和1(完全匹配)的數字。