2015-10-17 46 views
0

我是新來的詞性(pos)taging,我正在對文本文檔做pos標記。我正在考慮爲此使用OpenNLP或StanfordNLP。對於StanfordNPP,我使用的是MaxentTagger,我使用english-left3words-distsim.tagger進行訓練。在OpenNLP中,我使用POSModel並使用en-pos-maxent.bin進行訓練。這兩個標記器(MaxentTaggerPOSTagger)和訓練集(english-left3words-distsim.taggeren-pos-maxent.bin)如何不同以及哪一個通常會給出更好的結果。OpenNLP與StanfordNLP的詞性標註

回答

1

這兩種POS標籤都基於最大熵機器學習。它們在用於確定POS標籤的參數/特徵方面有所不同。例如,Stanford NLP pos tagger使用:「(i)更廣泛地處理未知單詞的大寫字母;(ii)消除動詞時態形式的特徵;(iii)用於從介詞和副詞中消除歧義詞的特徵」(閱讀更多in the paper)。 OpenNLP的功能記錄在我目前不知道的其他地方。

模型可能在不同的語料庫上訓練過。

一般來說,很難判斷哪個NLP工具在質量方面表現更好。這真的取決於你的域名,你需要測試你的工具。請參閱以下文章瞭解更多信息:

爲了切實解決這一問題,我正在開發一個Maven plugin and an annotation tool更有效地創建特定領域的NLP模型。

+0

@ H.Z。你的問題是通過我的回答回答的嗎?我很欣賞任何反饋。 – Schrieveslaach