2012-07-21 32 views
2

我有一個應用程序可以從傳入消息中提取信息。這些消息都包含相同的信息,但根據發送它們的源,它們具有不同的形式。我應該研究哪些機器學習領域,以自動從消息中提取某些信息

示例:從源甲

消息:從源B

A: You spent $50.00 at Macy's on 2/20/12 

消息:

Purchase, $50.00, Macy's, 2Feb2012, Balance $5000.00 

從單個源每個消息具有相同的形式,但。所以目前,我通過編寫一組正則表達式來首先確定哪條消息正在嘗試解碼(即,它來自哪個源,所以我知道消息的形式),然後提取消息中的必要信息(在上面的示例中,我想知道交易金額,交易發生的商店以及日期)。如果我發現消息的新來源,或者消息來源更改消息的格式(不會經常發生但可能發生),則需要手動爲該消息編寫正則表達式。不過,我確定我可以使用某種機器學習技術來實現這一功能。我對機器學習知之甚少,我不知道該從哪裏開始尋找適用於我的問題的技術。我希望有人能夠指引我從哪裏開始閱讀的正確方向。

回答

3

爲了檢測和標記金額,日期,人名和類似信息,您可以使用名爲實體識別技術。 Stanford Named Entity Recognizer附帶預培訓,隨時可用的模型。 您還可以使用迄今爲止生成的任何標記數據來學習應用程序的自定義模型。用於此目的的標準技術是條件隨機場或序列感知器。有許多工具包實現這些模型,包括:

  • Wapiti - 一個簡單快速的區分序列標記工具包。
  • Sequor - 基於Collins(2002)感知器的序列標籤。
+0

謝謝,我來看看,如果我沒有得到任何答案,請將此標記爲已接受。 – RichardB 2012-07-24 12:47:01

+0

斯坦福工具看起來很有用。我需要一些時間來消化那裏的東西,但是這確實指出了我的正確方向。謝謝! – RichardB 2012-08-01 12:43:58

相關問題