2017-09-13 43 views
1

我對NER和提取和編程一般都是新手。我正在設法找出一種方法,可以提取某些文檔的截止日期和開始日期。有沒有辦法做到這一點?我可以開始的地方?我一直在看,但我遇到的問題是一樣的。可以提取日期,但不能確定日期是到期還是過帳。如果它只有一個日期,它是過帳還是到期。像這樣的東西。任何幫助,將不勝感激。命名實體提取日期

例子:

「在中世紀亞洲徵文9月3日,是由於」。

「你在4月6日給出的最後一項任務應該在10天內提交。」

「投標截止日期不得遲於發佈日期(今天)的一個月。」

回答

1

以自由文本表達日期的可能性是巨大的。有幾個解決方案:

  • 你可以帶一組正則表達式並嘗試自己解析它們。

  • 另一種方法是訓練CRF等受監督的序列分類器,如果你有一個帶日期註釋的文檔。

  • 第三個選項可以快速得到結果,就是使用Facebook研究中的這個框架https://github.com/facebookincubator/duckling,它將識別表達式是日期或時間表達式,甚至可以將它們標準化爲一個唯一的日期。

+1

非常感謝@David Batista。鴨子是一個巨大的幫助! –

+0

不客氣:) –