2014-10-08 33 views
0

我將安然電子郵件數據集設置爲一個文件夾,其中包含文本文件形式的電子郵件,並且我想提取這些電子郵件的「身體」部分如何從包含電子郵件的文本文件中提取正文[安然數據集]

問題是,發件人的電子郵件,收件人的電子郵件等字段由收件人:,發件人等指定: 但Body沒有以任何標題開頭,它只是在所有其他領域已被指定。

現在,一個文本文件可以包含許多機構(在電子郵件線程/對話的情況下)。 我想從這些文件中提取正文。可以使用javamail API,如果是的話,那麼如何?它只是離線數據集,以我的硬盤驅動器中的文本文件的形式存在,而不是互聯網上。

的文件就像這 -

Message-ID: <[email protected]> 
 
Date: Fri, 7 Dec 2001 10:06:42 -0800 (PST) 
 
From: [email protected] 
 
To: [email protected] 
 
Subject: RE: West Position 
 
Mime-Version: 1.0 
 
Content-Type: text/plain; charset=us-ascii 
 
Content-Transfer-Encoding: 7bit 
 
X-From: Dunton, Heather </O=ENRON/OU=NA/CN=RECIPIENTS/CN=HDUNTON> 
 
X-To: Allen, Phillip K. </O=ENRON/OU=NA/CN=RECIPIENTS/CN=Pallen> 
 
X-cc: 
 
X-bcc: 
 
X-Folder: \Phillip_Allen_Jan2002_1\Allen, Phillip K.\Inbox 
 
X-Origin: Allen-P 
 
X-FileName: pallen (Non-Privileged).pst 
 

 
    
 
Please let me know if you still need Curve Shift. 
 

 
Thanks, 
 
Heather 
 
-----Original Message----- 
 
From: \t Allen, Phillip K. 
 
Sent: \t Friday, December 07, 2001 5:14 AM 
 
To: \t Dunton, Heather 
 
Subject: \t RE: West Position 
 

 
Heather, 
 

 
Did you attach the file to this email? 
 

 
-----Original Message----- 
 
From: \t Dunton, Heather 
 
Sent: \t Wednesday, December 05, 2001 1:43 PM 
 
To: \t Allen, Phillip K.; Belden, Tim 
 
Subject: \t FW: West Position 
 

 
Attached is the Delta position for 1/16, 1/30, 6/19, 7/13, 9/21 
 

 

 
-----Original Message----- 
 
From: \t Allen, Phillip K. 
 
Sent: \t Wednesday, December 05, 2001 6:41 AM 
 
To: \t Dunton, Heather 
 
Subject: \t RE: West Position 
 

 
Heather, 
 

 
This is exactly what we need. Would it possible to add the prior day for each of the dates below to the pivot table. In order to validate the curve shift on the dates below we also need the prior days ending positions. 
 

 
Thank you, 
 

 
Phillip Allen 
 

 
-----Original Message----- 
 
From: \t Dunton, Heather 
 
Sent: \t Tuesday, December 04, 2001 3:12 PM 
 
To: \t Belden, Tim; Allen, Phillip K. 
 
Cc: \t Driscoll, Michael M. 
 
Subject: \t West Position 
 

 

 
Attached is the Delta position for 1/18, 1/31, 6/20, 7/16, 9/24 
 

 

 

 
<< File: west_delta_pos.xls >> 
 

 
Let me know if you have any questions. 
 

 

 
Heather

回答

0

請提供一個例子文件,最複雜的一個,如果可能的。 這項工作將以編程方式打開每個文件,解析其內容並提取電子郵件的正文。 那麼你想在哪裏存儲它? 你正在運行哪個操作系統?

+0

無法在發佈時發表評論(需要50 xp)。 – 2014-10-08 22:18:52

+0

嘆息...對不起,我一直忘記那個規則... – ajb 2014-10-08 22:22:53

+0

提供了示例文件,我想要的就是單獨獲取所有'body'。 (有5個機構,因爲它是一個會話電子郵件) 我已經使用Javamail api並使用getContent()來提取主體,但它將整個主體(它在X-Filename之後開始兩行)到文件末尾) – Shady23 2014-10-09 13:33:16

0

如果每個文件都是MIME格式的單個消息,則可以使用帶有InputStream的JavaMail MimeMessage構造函數。然後您可以使用JavaMail API來提取消息的內容。查看JavaMail FAQ,javadocs,網站,規範等。

相關問題