3
A
回答
3
從https://github.com/nltk/nltk/pull/1143,我們看到它從https://spacy.io/blog/part-of-speech-pos-tagger-in-python
端口在訓練的tagdict
的標記集包括以下標籤:
>>> from nltk.tag import PerceptronTagger
>>> tagger = PerceptronTagger()
>>> set(tagger.tagdict.values())
set(['PRP$', 'VBG', 'VBD', '``', 'VBN', "''", 'VBP', 'WDT', 'JJ', 'WP', 'VBZ', 'DT', '#', '$', 'NN', ')', '(', ',', '.', 'TO', 'PRP', 'RB', ':', 'NNS', 'NNP', 'VB', 'WRB', 'CC', 'CD', 'EX', 'IN', 'WP$', 'MD', 'JJS', 'JJR'])
完整的標記集是:
>>> sorted(tagger.classes)
['#', '$', "''", '(', ')', ',', '.', ':', 'CC', 'CD', 'DT', 'EX', 'FW', 'IN', 'JJ', 'JJR', 'JJS', 'LS', 'MD', 'NN', 'NNP', 'NNPS', 'NNS', 'PDT', 'POS', 'PRP', 'PRP$', 'RB', 'RBR', 'RBS', 'RP', 'SYM', 'TO', 'UH', 'VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ', 'WDT', 'WP', 'WP$', 'WRB', '``']
這是Penn Treebank Tagset來自:https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
相關問題
- 1. nltk自定義標記器和標記器
- 2. 什麼是默認的nltk詞性標記集?
- 3. 評估NLTK中的POS標記器
- 4. NLTK中單個單詞的標記器
- 5. Python和NLTK:基線標記器
- 6. 從txt讀取NLTK標記器
- 7. nltk pos標記expletives
- 8. NLTK標記問題
- 9. 什麼是MeCab輸出和標記集?
- 10. 什麼是「標記的DFA」?
- 11. 從Stanfordcorenlp庫實現標記器的標準程序是什麼?
- 12. 爲什麼咖啡標記解釋器拒絕'for'標記?
- 13. 瞭解用於POS標記的結構感知器
- 14. 在NLTK中使用自定義標籤的培訓標記器
- 15. 什麼是標記界面?
- 16. 什麼是緩存標記?
- 17. 什麼是「標記PDF」?
- 18. 什麼是標記界面?
- 19. 什麼是壞標記?
- 20. 標記是什麼意思?
- 21. 什麼是標記擴展?
- 22. 自定義標記與nltk
- 23. 感知器的「訂單」是什麼
- 24. 未知的服務器標記'dnn:DnnCssInclude'
- 25. 未知的服務器標記'rsweb:ReportViewer'
- 26. 什麼是感知器學習算法?
- 27. 將未標記的語料庫轉換爲標記(NLTK)
- 28. 是否有方法在SOlr中指定文檔感知標記過濾器?
- 29. #pragma標記的意義是什麼?爲什麼我們需要#pragma標記?
- 30. 未知服務器標記「ajaxToolkit:HtmlEditorExtender」