我是新來的詞性(pos)taging,我正在對文本文檔做pos標記。我正在考慮爲此使用OpenNLP或StanfordNLP。對於StanfordNPP,我使用的是MaxentTagger
,我使用english-left3words-distsim.tagger
進行訓練。在OpenNLP中,我使用POSModel
並使用en-pos-maxent.bin
進行訓練。這兩個標記器(MaxentTagger
和POSTagger
)和訓練集(english-left3words-distsim.tagger
和en-pos-maxent.bin
)如何不同以及哪一個通常會給出更好的結果。OpenNLP與StanfordNLP的詞性標註
0
A
回答
1
這兩種POS標籤都基於最大熵機器學習。它們在用於確定POS標籤的參數/特徵方面有所不同。例如,Stanford NLP pos tagger使用:「(i)更廣泛地處理未知單詞的大寫字母;(ii)消除動詞時態形式的特徵;(iii)用於從介詞和副詞中消除歧義詞的特徵」(閱讀更多in the paper)。 OpenNLP的功能記錄在我目前不知道的其他地方。
模型可能在不同的語料庫上訓練過。
一般來說,很難判斷哪個NLP工具在質量方面表現更好。這真的取決於你的域名,你需要測試你的工具。請參閱以下文章瞭解更多信息:
爲了切實解決這一問題,我正在開發一個Maven plugin and an annotation tool更有效地創建特定領域的NLP模型。
相關問題
- 1. 培訓部分的詞性標註器在opennlp
- 2. 詞性標註:標註生詞
- 3. NLTK單詞詞性標註
- 4. 列車數據的同義詞單詞英語與opennlp
- 5. Tokenizer培訓與StanfordNLP
- 6. OpenNLP詞典化示例
- 7. OpenNLP有一個詞幹嗎?
- 8. OpenNLP創建註釋器
- 9. OpenNLP的解析器標籤
- 10. 歧視性訓練的監督詞性標註
- 11. 挑戰NLTK詞性標註器報告複數專有名詞
- 12. apache openNLP chuker/POS名詞檢測
- 13. 在StanfordNLP中查找對提供的名詞的所有引用
- 14. 提取從POS標籤的名詞性詞語與原句
- 15. 使用StanfordNLP分類器進行分詞的文本分類器
- 16. 詞性標註後的單詞產生意想不到的結果
- 17. 用於Android中詞性標註和情感分析的庫?
- 18. 與註冊表達了詞與詞之間的多個間隔
- 19. 如何在Java中使用StanfordNLP中文分詞器?
- 20. 如何使用StanfordNLP
- 21. StanfordNLP OpenIE 4錯誤
- 22. 中國Lemmetization在StanfordNLP
- 23. Google Custom Search - 與註釋標籤相關的同義詞
- 24. Perl的詞性標註:需要用於語言的標籤集:: EN :: Tagger
- 25. 使用上下文改進詞性標註
- 26. NLTK的詞性標註器是否使用全局信息或只是被標記的詞?
- 27. Apache OpenNLP名稱實體發現者識別錯誤的單詞
- 28. 詞性標記Web服務?
- 29. 在Mac上的openNLP
- 30. stanfordnlp - 將空格分隔的單詞作爲斯坦福NER模型生成的單個標記進行訓練
@ H.Z。你的問題是通過我的回答回答的嗎?我很欣賞任何反饋。 – Schrieveslaach