2013-04-07 60 views
16

我的工作是計劃使用UIMA集羣來運行文檔以提取命名實體,而不是。據我所知,UIMA幾乎沒有與它一起打包的NLP組件。我一直在測試GATE一段時間,並且對它很滿意。它在正常文本上沒問題,但是當我們通過一些有代表性的測試數據運行它時,精度會下降。我們內部的文本數據有時全部大寫,有時全部小寫,或者在同一文檔中混合使用。即使使用ANNIE的所有上限規則,準確性仍有很多不足之處。我最近聽說過斯坦福大學的NLP和OpenNLP,但還沒有時間進行廣泛的培訓和測試。這兩者如何與ANNIE的準確性進行比較?他們是否像GATE一樣與UIMA一起工作?準確性:ANNIE對比斯坦福NLP vs UIMA對OpenNLP

在此先感謝。

+1

ANNIE是基於規則的。我的猜測是斯坦福NLP和OpenNLP應該表現更好,因爲它們是基於ML的。 – 2013-04-09 10:02:53

回答

18

對這些系統的性能進行總體估計是不可能的/合理的。正如你所說,在你的測試數據上,精度下降。這有幾個原因,一個是文檔的語言特徵,另一個是您期望看到的註釋的特徵。 Afaik對於每個NER任務都有相似但仍不同的註釋指南。

雖這麼說,你的問題:

ANNIE是唯一的免費開源的基於規則的NER在Java系統我能找到。它是爲新聞文章撰寫的,我猜測MUC 6的任務。這對於概念驗證很有好處,但有點過時。主要優點是你可以在沒有任何機器學習知識的情況下開始改進它,nlp,或許有點java。只要學習JAPE,並給它一個鏡頭。

OpenNLP,Stanford NLP等默認使用新聞文章模型,並且比ANNIE更好地執行(僅查看結果,從未在大語料庫中測試過)。我喜歡斯坦福解析器比OpenNLP更好,再次看文檔,大多是新聞文章。

不知道你的文件是什麼樣子,我真的不能說更多。您應該確定您的數據是否適合規則,或者您使用機器學習方式並使用OpenNLP或Stanford解析器或Illinois tagger或其他任何東西。斯坦福大學的解析器似乎更適合於只灌注數據,訓練和生成結果,而OpenNLP似乎更適合嘗試不同的算法,玩參數等。

對於你的蓋茨UIMA爭議,我試了兩次,發現更多病毒社區和更好的GATE文檔。對於提供個人意見感到抱歉:)

5

僅作爲回答UIMA角度的記錄:對於斯坦福大學NLP和OpenNLP,作爲可通過DKPro Core project獲得的UIMA分析引擎,都具有出色的包裝。

3

我想補充一點。 UIMA和GATE是創建自然語言處理(NLP)應用程序的兩個框架。但是,名稱實體識別(NER)是一個基本的NLP組件,您可以找到NER的實現,而不依賴於UIMA和GATE。好消息是,你通常可以在UIMA和GATE中找到一個體面的NER包裝。爲了明確這一點讓看到這個例子:

這是斯坦福NER成分相同。

現在回到你的問題,這個網站列出了藝術的淨入學率的狀態: http://www.aclweb.org/aclwiki/index.php?title=Named_Entity_Recognition_(State_of_the_art)

例如,在MUC-7的競爭,名爲LTG最好參加了與93.39%的準確結果。

http://www.aclweb.org/aclwiki/index.php?title=MUC-7_(State_of_the_art)

請注意,如果你想使用的這種狀態是實現,您就可以與他們的執照一些問題。