2011-10-05 30 views
1

問題:給定一個非結構化文本文檔找到任何日期或日期/時間子字符串。在文本文檔中查找日期或日期/時間的策略?

我現在的想法是尋找已知格式與一羣正則表達式的的這感覺嚴重缺憾,昂貴且容易出錯:-)

這是哪門子的文檔的我說的是:

培根ipsum dolor坐amet牛腩repenederit排骨aute。 Ullamco consequat小豬豬頸肉,laboris做pastrami 1980年1月10日est鹿肉shankle短1-20-1980 loin bresaola鹹牛肉。牛肋骨28/2/2001三尖頂丘形小腿,excepteur qui非五香薰牛肉。

我懷疑我不解決這個問題的第一人,而且我希望由此得到的代碼是埋在一些開源項目,我不知道......

的思考?

+0

什麼是錯的使用正則表達式來做到這一點?爲什麼你認爲這會是糟糕和/或昂貴或容易出錯?這是正則表達式是... – hspain

+0

你的例子讓我很餓。 –

回答

0

這是一個特設的啓發式 - 但也許首先標記化?

你可以recogize以下標記

  • 「垃圾」(在默認情況下,任何不喜歡日期部分)
  • dddd(4位數 - 通常爲一年)
  • dd(2位 - 日一個月或一年)
  • d(1位 - 天或月)
  • dd_st
  • dd_th(和變體的位數)
  • dd_rd
  • monthname

等等等等

每個令牌可以有幾種不同的解釋(例如d是一個月或天)和日期是3個令牌的序列,您可以從年,月,日(以您希望允許的任何順序)中選擇其中一個。

這裏的想法是,以接受更多的語法比你用正則表達式得到的,如果這是你的意圖......

相關問題