我正在寫分析電子郵件應用程序,它會爲我節省大量的時間,如果我可以使用Python庫,將解析電子郵件文本分解成一個名爲組件,如<salutation><body><signature><reply text>
等如何解析電子郵件文本,如<salutation><body><signature><reply text>等?
例如,下面的文字「Hi Dave,\nLets meet up this Tuesday\nCheers, Tom\n\nOn Sunday, 15 May 2011 at 5:02 PM, Dave Trindall wrote: Hey Tom,\nHow about we get together ...
」將被作爲
Salutation: "Hi Dave,\n"
Body: "Lets meet up this Tuesday\n"
Signature: "Cheers, Tom\n\n"
Reply Text: "On Sunday, 15 May 2011 at 5:02 PM, Dave Trindal wrote: ..."
我知道有這類問題,做很好的近似,將有助於沒有完美的解決方案,但即使是庫解析。我在哪裏可以找到一個?
是標準mbox格式的電子郵件嗎? http://docs.python.org/library/mailbox.html – tMC 2011-05-17 01:13:37
號目前他們在一個MySQL表的文本字段,但是格式化成MBOX格式之前,如果需要的話就不會了解析將是一個非常隨意的一步? – Trindaz 2011-05-17 01:26:48