OpenNLP與StanfordNLP的詞性標註

我是新來的詞性（pos）taging，我正在對文本文檔做pos標記。我正在考慮爲此使用OpenNLP或StanfordNLP。對於StanfordNPP，我使用的是MaxentTagger，我使用english-left3words-distsim.tagger進行訓練。在OpenNLP中，我使用POSModel並使用en-pos-maxent.bin進行訓練。這兩個標記器（MaxentTagger和POSTagger）和訓練集（english-left3words-distsim.tagger和en-pos-maxent.bin）如何不同以及哪一個通常會給出更好的結果。OpenNLP與StanfordNLP的詞性標註

來源

2015-10-17 H.Z.

這兩種POS標籤都基於最大熵機器學習。它們在用於確定POS標籤的參數/特徵方面有所不同。例如，Stanford NLP pos tagger使用：「（i）更廣泛地處理未知單詞的大寫字母;（ii）消除動詞時態形式的特徵;（iii）用於從介詞和副詞中消除歧義詞的特徵」（閱讀更多in the paper）。 OpenNLP的功能記錄在我目前不知道的其他地方。

模型可能在不同的語料庫上訓練過。

一般來說，很難判斷哪個NLP工具在質量方面表現更好。這真的取決於你的域名，你需要測試你的工具。請參閱以下文章瞭解更多信息：

爲了切實解決這一問題，我正在開發一個Maven plugin and an annotation tool更有效地創建特定領域的NLP模型。

來源

2015-10-19 09:04:34 Schrieveslaach

@ H.Z。你的問題是通過我的回答回答的嗎？我很欣賞任何反饋。 – Schrieveslaach

OpenNLP與StanfordNLP的詞性標註

回答

相關問題