這是我必須處理的大量不羈的線程。每封電子郵件都是正常回復的,所以每個人都有完整的歷史記錄並不重要,直到達到幾百封電子郵件。需要從Thunderbird導出的.eml文件中去除舊郵件。
所以,我在Thunderbird中打開它們,然後導出它們。現在,我必須找到一種方法來將每封電子郵件僅刪除到其自己的內容。保留回覆位,但只是擺脫其他電子郵件的實際內容。
我現在使用的是Python,因爲我對它很熟悉,並且之前已經將它用於XML解析。我嘗試了BeautifulSoup,它似乎很擅長剝離3D「gmail_quote」div元素,但是這樣做似乎試圖通過在其他元素中包含各種位來理解.eml文件的其餘部分,並且破壞了格式。
所以,我需要找到一種方法來剝離一個不純XML的文件,但包含大量有效的XML,特定div類的每個實例及其子類,而不觸及純文本。我想要使用的部分都是有效的XML(或者,對於BeautifulSoup來說,足夠接近並且屬性上有奇怪的引號)。
我知道我也必須去掉體內的回覆,但這很容易。