2012-05-02 58 views
1

我使用OpenNLP模型進行名稱實體識別。OpenNLP名稱實體識別模型的時間和日期

我傳遞的句子,在我需要確定的話。 打開NLP需要一個String []變量,因此我將我的String分隔成由空格分隔的單詞。

我面臨認識日期的問題。例如,如果字符串包含2012年1月7日的日期,並且我將字符串拆分爲單詞,則「7」,「Jan」和「2012」將分隔爲3個不同的單詞。儘管它們被認爲是日期,但是3種不同的標記對於我進一步處理沒有意義。 我怎麼可能分裂我的字符串,以便「2012年1月2日」可以作爲一個字符串... 2012年1月7日是一種格式...有時它也是1月7,2012。日期還會識別我輸入的時間格式:如下午12:18

NER時間模型無法識別12:18 pm或09:52:52中的時間。它接受哪種時間格式?

回答

1

的Apache OpenNLP日期和時間模型的統計,從語料訓練。它將從上下文中識別日期和時間,而不僅僅是格式。

如果你有特殊需求,你可以創建自己的語料庫和train自己OpenNLP名稱 搜索模式。

OpenNLP名稱搜索還支持在訓練一些定製。也許如果你創建一個語料庫,並且添加一些regex based features,你可以改善你的結果。

相關問題