2013-05-06 31 views
0

我使用Python和imaplib從IMAP服務器獲取電子郵件(支持各種IMAP服務器 - GMail等)。IMAP HTML文本中的額外選項卡

我的問題是:使用IMAP BODY [INDEX]命令來獲取特定的正文部分,HTML帶有額外的選項卡。如:

(...)</a>\t\t\t\t\t\t\t\t<a>(...) 

顯示HTML當標籤顯然是多餘的。

enter image description here

(截圖是在葡萄牙的語言,但我認爲是不相關的

我已經搜索了IMAP文檔,但沒有發現任何有用的信息,我猜這些\ t總是跟着標籤關閉(比如\ t \ t \ t \ t \ t),所以我只能找到標籤關閉後出現的所有標籤刪除它們,但我不知道這是否會是可靠的方法。

謝謝

+1

請向我們展示處理相關文本的代碼。 – 2013-05-06 21:05:50

+0

製表符對html解析器不重要。他們可能在源文件中。 Html摺疊所有相鄰的空格,包括製表符到一個空格。 – Max 2013-05-07 00:09:56

回答

0

我找到了一個解決方案(至少暫時)。

從IMAP呼叫響應接收數據時,會有\ r \ n個字符分隔線條。我刪除這些。

但是,我發現除了這些之外,在某些情況下還會有這些字符加上這些字符。例如:

\\ř\\ñ\\噸\\噸\\噸\噸

如果刪除了\\噸連同\\ř\\ n時,HTML是完全呈現。