我正在尋找一個簡單但「足夠好」的java命名實體識別庫(和字典),我期待處理電子郵件和文檔並提取一些「基本信息」,如: 名稱,地點,地址和日期爲Java命名實體識別庫
我一直在環顧四周,而且大多數人似乎是在沉重的一面和完整的NLP類型的項目。
有什麼建議嗎?
我正在尋找一個簡單但「足夠好」的java命名實體識別庫(和字典),我期待處理電子郵件和文檔並提取一些「基本信息」,如: 名稱,地點,地址和日期爲Java命名實體識別庫
我一直在環顧四周,而且大多數人似乎是在沉重的一面和完整的NLP類型的項目。
有什麼建議嗎?
順便說一句,我最近遇到了OpenCalais這似乎有我正在尋找的功能。
你可能想看看my earlier answers之一到類似的問題。
除此之外,大多數較輕的NER系統在很大程度上取決於所使用的域。例如,您會發現很多關於生物醫學NER系統的工具和論文。除了我以前的帖子(如果你想要做的NER已經包含我的主要建議),這裏有更多的工具,你可能要考慮:
一個額外的評論:如果沒有標記輸入,你不會離開。自然語言的標記化是微不足道的,這就是爲什麼我建議你使用一個工具箱來爲你做。
GENIA惡搞/一樣標記生成器的工作原理以及斯坦福分析器的內置標記生成器! – nflacco 2011-07-09 22:50:15
您也可以嘗試Alchemy API。它類似於開放加萊。
其不開源。 – wolfgang 2013-10-28 03:49:34