NLTK感知器標記器的標記集是什麼？

NLTK感知器標記器的標記集是什麼？用於預訓練模型的語料庫是什麼？NLTK感知器標記器的標記集是什麼？

我試圖從NLTK網站上找到官方信息。但他們沒有那個。

2016-07-25 Mingzhi Yu

從https://github.com/nltk/nltk/pull/1143，我們看到它從https://spacy.io/blog/part-of-speech-pos-tagger-in-python

端口在訓練的tagdict的標記集包括以下標籤：

>>> from nltk.tag import PerceptronTagger 
>>> tagger = PerceptronTagger() 
>>> set(tagger.tagdict.values()) 
set(['PRP$', 'VBG', 'VBD', '``', 'VBN', "''", 'VBP', 'WDT', 'JJ', 'WP', 'VBZ', 'DT', '#', '$', 'NN', ')', '(', ',', '.', 'TO', 'PRP', 'RB', ':', 'NNS', 'NNP', 'VB', 'WRB', 'CC', 'CD', 'EX', 'IN', 'WP$', 'MD', 'JJS', 'JJR'])

完整的標記集是：

>>> sorted(tagger.classes) 
['#', '$', "''", '(', ')', ',', '.', ':', 'CC', 'CD', 'DT', 'EX', 'FW', 'IN', 'JJ', 'JJR', 'JJS', 'LS', 'MD', 'NN', 'NNP', 'NNPS', 'NNS', 'PDT', 'POS', 'PRP', 'PRP$', 'RB', 'RBR', 'RBS', 'RP', 'SYM', 'TO', 'UH', 'VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ', 'WDT', 'WP', 'WP$', 'WRB', '``']

這是Penn Treebank Tagset來自：https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

來源

2016-07-25 23:21:55 alvas

NLTK感知器標記器的標記集是什麼？

回答

相關問題