2012-02-17 69 views
1

這是我必須處理的大量不羈的線程。每封電子郵件都是正常回復的,所以每個人都有完整的歷史記錄並不重要,直到達到幾百封電子郵件。需要從Thunderbird導出的.eml文件中去除舊郵件。

所以,我在Thunderbird中打開它們,然後導出它們。現在,我必須找到一種方法來將每封電子郵件僅刪除到其自己的內容。保留回覆位,但只是擺脫其他電子郵件的實際內容。

我現在使用的是Python,因爲我對它很熟悉,並且之前已經將它用於XML解析。我嘗試了BeautifulSoup,它似乎很擅長剝離3D「gmail_quote」div元素,但是這樣做似乎試圖通過在其他元素中包含各種位來理解.eml文件的其餘部分,並且破壞了格式。

所以,我需要找到一種方法來剝離一個不純XML的文件,但包含大量有效的XML,特定div類的每個實例及其子類,而不觸及純文本。我想要使​​用的部分都是有效的XML(或者,對於BeautifulSoup來說,足夠接近並且屬性上有奇怪的引號)。

我知道我也必須去掉體內的回覆,但這很容易。

回答

0

沒有看到示例,我無法確定如何完成您所需的操作,但email module的解析器應處理解析.eml文件。

相關問題