從txt讀取NLTK標記器

2016-03-09 64 views 0 likes

我在Python上使用NLTK。我想從txt讀取使用default，unigram和pos tagger。然而，我沒有這樣做，因爲沒有特定的txt導入標籤。例如，在課堂上，我們正在使用準備好的語料庫，比如棕色等。我的問題是如何使用標記符導入方法。最終，我希望看到評估每個標記器的性能。從txt讀取NLTK標記器

來源

2016-03-09 edithpiaf

回答

閱讀這樣的文件：

f = open('your-file.txt', 'rU') # U is for Unicode 
raw = f.read() 
tokens = nltk.word_tokenize(raw)

一旦你有你可以標記它進行標記化文本，例如：

def_tagger = nltk.DefaultTagger('NN') 
def_tagger.tag(tokens)

，這將（作爲一個例子）標籤每令牌爲NN。爲了評價它，你會需要一個標籤手動分配到每個字，然後：

def_tagger.evaluate(you_manual_tagged_sents)

這將返回介於0（非常糟糕）和1（完全匹配）的數字。

來源

2016-03-10 18:03:19 Alex

相關問題

11. 讀取數據從.txt（C++）
12. 如何從txt讀取行？
13. 從txt行讀取整數
14. 從txt讀取文件
15. Java /從.txt文件讀取
16. iOS從網絡讀取txt
17. 從txt讀取參數
18. Android從txt讀取到hashmap
19. NLTK從標記重建句子
20. 讀取從內部標記獲取值的XML標記
21. 自定義標記與nltk
22. 讀取txt文件並將其放入html div標記
23. 從NLTK內訓練新的斯坦福詞性標記器
24. 如何從編號的txt文件讀取？（data1.txt，data2.txt等）
25. 從.txt讀入
26. 多標記（）緩衝讀取器
27. 如何從Braintree_PaymentMethod :: create中讀取標記
28. 從<script>讀取JSON標記
29. 從tr標記中讀取類屬性
30. 從.vm文件讀取Velocity標記/標記