準確性：ANNIE對比斯坦福NLP vs UIMA對OpenNLP

我的工作是計劃使用UIMA集羣來運行文檔以提取命名實體，而不是。據我所知，UIMA幾乎沒有與它一起打包的NLP組件。我一直在測試GATE一段時間，並且對它很滿意。它在正常文本上沒問題，但是當我們通過一些有代表性的測試數據運行它時，精度會下降。我們內部的文本數據有時全部大寫，有時全部小寫，或者在同一文檔中混合使用。即使使用ANNIE的所有上限規則，準確性仍有很多不足之處。我最近聽說過斯坦福大學的NLP和OpenNLP，但還沒有時間進行廣泛的培訓和測試。這兩者如何與ANNIE的準確性進行比較？他們是否像GATE一樣與UIMA一起工作？準確性：ANNIE對比斯坦福NLP vs UIMA對OpenNLP

在此先感謝。

來源

2013-04-07 Drag

ANNIE是基於規則的。我的猜測是斯坦福NLP和OpenNLP應該表現更好，因爲它們是基於ML的。 – 2013-04-09 10:02:53

對這些系統的性能進行總體估計是不可能的/合理的。正如你所說，在你的測試數據上，精度下降。這有幾個原因，一個是文檔的語言特徵，另一個是您期望看到的註釋的特徵。 Afaik對於每個NER任務都有相似但仍不同的註釋指南。

雖這麼說，你的問題：

ANNIE是唯一的免費開源的基於規則的NER在Java系統我能找到。它是爲新聞文章撰寫的，我猜測MUC 6的任務。這對於概念驗證很有好處，但有點過時。主要優點是你可以在沒有任何機器學習知識的情況下開始改進它，nlp，或許有點java。只要學習JAPE，並給它一個鏡頭。

OpenNLP，Stanford NLP等默認使用新聞文章模型，並且比ANNIE更好地執行（僅查看結果，從未在大語料庫中測試過）。我喜歡斯坦福解析器比OpenNLP更好，再次看文檔，大多是新聞文章。

不知道你的文件是什麼樣子，我真的不能說更多。您應該確定您的數據是否適合規則，或者您使用機器學習方式並使用OpenNLP或Stanford解析器或Illinois tagger或其他任何東西。斯坦福大學的解析器似乎更適合於只灌注數據，訓練和生成結果，而OpenNLP似乎更適合嘗試不同的算法，玩參數等。

對於你的蓋茨UIMA爭議，我試了兩次，發現更多病毒社區和更好的GATE文檔。對於提供個人意見感到抱歉:)

來源

2013-04-17 14:27:26 Yasen