2017-03-03 65 views
1

我的論文項目我將處理一大堆電子郵件。 我需要提取所有頭字段,並將它們傳送到各種數據結構中,最好是像JSON那樣通用的東西。頭腦風暴:解析txt電子郵件到結構化對象(JSON等)

現在,我一直在尋找這個,並找到了很多半屁股工作解決方案。 我不想讓你告訴我如何做到這一點,只是在桌子上拋出一些想法。

現在我的計劃是使用python來解析頭字段。 我選擇python是因爲它非常好用,而且我有過使用python的經驗。此外,還有很多圖書館。 問題是python的官方電子郵件處理不適用於重複字段,這對我很重要。特別是對於標題「Received:」,因爲它允許跟蹤跨多個郵件服務器的電子郵件旅行。

官方庫忽略多個領域,只是存儲的第一個-.-」

任何想法,你會如何解決這個

回答

1

這個答案也許對你有所幫助:??problem with email parsing with python and multiple Received records

蟒蛇文檔的電子郵件的GetItem()說:

注意,如果指定字段出現在一次以上消息的 標題,那些字段值將返回哪些是未定義的 。使用get_all()方法獲取所有 現存命名標題的值。

因此,請使用e.get_all(i)而不是e [i]來獲取 Received:header的所有值。