我有一個應用程序可以從傳入消息中提取信息。這些消息都包含相同的信息,但根據發送它們的源,它們具有不同的形式。我應該研究哪些機器學習領域,以自動從消息中提取某些信息
示例:從源甲
消息:從源B
A: You spent $50.00 at Macy's on 2/20/12
消息:
Purchase, $50.00, Macy's, 2Feb2012, Balance $5000.00
從單個源每個消息具有相同的形式,但。所以目前,我通過編寫一組正則表達式來首先確定哪條消息正在嘗試解碼(即,它來自哪個源,所以我知道消息的形式),然後提取消息中的必要信息(在上面的示例中,我想知道交易金額,交易發生的商店以及日期)。如果我發現消息的新來源,或者消息來源更改消息的格式(不會經常發生但可能發生),則需要手動爲該消息編寫正則表達式。不過,我確定我可以使用某種機器學習技術來實現這一功能。我對機器學習知之甚少,我不知道該從哪裏開始尋找適用於我的問題的技術。我希望有人能夠指引我從哪裏開始閱讀的正確方向。
謝謝,我來看看,如果我沒有得到任何答案,請將此標記爲已接受。 – RichardB 2012-07-24 12:47:01
斯坦福工具看起來很有用。我需要一些時間來消化那裏的東西,但是這確實指出了我的正確方向。謝謝! – RichardB 2012-08-01 12:43:58