當附件獲得保存在Microsoft Outlook中的消息時,它會將其保存爲一個'.msg'文件,其中包含電子郵件的所有內容以及附件文件。我想提取電子郵件正文的文本內容以及附件。 Apache Tika是否支持'.msg'文件?如果沒有其他想法?如何提取由Outlook生成的'.msg'文件的內容?
0
A
回答
-1
提卡不支持msg files
您可以使用apache POI有一些例子像這樣在一旁one
樣本:
public static void main(String[] args) throws Exception{
MsgParser msgp = new MsgParser();
Message msg = msgp.parseMsg("c:/temp/test2.msg");
String fromEmail = msg.getFromEmail();
String fromName = msg.getFromName();
String subject = msg.getSubject();
String body = msg.getBodyText();
System.out.println("From :" + fromName + " <" + fromEmail + ">");
System.out.println("Subject :" + subject);
System.out.println("");
System.out.println(body);
System.out.println("");
List atts = msg.getAttachments();
for (Attachment att : atts) {
if (att instanceof FileAttachment) {
FileAttachment file = (FileAttachment) att;
System.out.println("Attachment : " + file.getFilename());
// you get the actual attachment with
// byte date[] = file.getData();
}
}
}
1
如果你看一下list of mail formats supported by Apache Tika 1.9(目前最新版本),您會看到Outlook MSG文件被列爲受支持的文件。
從Apache POI project's test files以一個簡單的例子MSG文件,並使用蒂卡應用獨立的罐子,使測試變得簡單,我們可以很容易地走出了內容和元數據:
$ java -jar tika-app-1.9.jar --metadata simple_test_msg.msg
Author: Travis Ferguson
Content-Length: 16896
Content-Type: application/vnd.ms-outlook
Creation-Date: 2007-07-06T05:27:17Z
Last-Modified: 2007-07-06T05:27:17Z
Last-Save-Date: 2007-07-06T05:27:17Z
Message-Bcc:
Message-Cc:
Message-From: Travis Ferguson
Message-Recipient-Address: [email protected]
Message-To: [email protected]
X-Parsed-By: org.apache.tika.parser.DefaultParser
X-Parsed-By: org.apache.tika.parser.microsoft.OfficeParser
creator: Travis Ferguson
date: 2007-07-06T05:27:17Z
dc:creator: Travis Ferguson
dc:description: test message
dc:title: test message
dcterms:created: 2007-07-06T05:27:17Z
dcterms:modified: 2007-07-06T05:27:17Z
meta:author: Travis Ferguson
meta:creation-date: 2007-07-06T05:27:17Z
meta:save-date: 2007-07-06T05:27:17Z
modified: 2007-07-06T05:27:17Z
resourceName: simple_test_msg.msg
subject: test message
title: test message
$ java -jar tika-app-1.9.jar --text simple_test_msg.msg
test message
From
Travis Ferguson
To
[email protected]
Recipients
[email protected]
This is a test message.
元數據,包括髮件人,receipients ,日期等,文字,所有你想要的!
另外,如果你有特殊需求/要求,並希望完全控制,可以使用底層Apache POI HSMF library解析您的MSG文件,看看HSMF unit tests使用情況的示例
相關問題
- 1. 爲Outlook生成.msg文件
- 2. 我如何使用php生成outlook msg文件
- 3. 如何從Outlook 2007中提取電子郵件的內容?
- 4. 如何從不在Outlook中的硬盤打開outlook .msg文件?
- 5. 閱讀Outlook .msg文件
- 6. 如何從Outlook MSG文件中讀取收到的日期 - 不使用Outlook API?
- 7. 將成千上萬的收件人導入Outlook中的Outlook MSG
- 8. 如何從apk中提取Lua文件(apk由corona生成)
- 9. 如何從javascript生成的源代碼提取內容
- 10. 如何測試由Rails郵件程序生成的html內容?
- 11. 試圖從保存的.msg文件使用VBA提取Outlook附件
- 12. 如何查找Outlook郵件文件(.msg)的代碼頁ID
- 13. PHP獲取動態生成文件的文件內容
- 14. 從Outlook電子郵件中提取msg附件
- 15. 使用VB腳本讀取.msg文件的內容
- 16. 提取文件內容
- 17. 提取內容.img文件
- 18. 從outlook通過powershell讀取MSG文件..如何獲取電子郵件地址?
- 19. 如何從excel中的.msg文件中提取數據?
- 20. 如何禁用Outlook按鈕,打開後市的MSG文件
- 21. 獲取Outlook約會的文件圖標(.msg)
- 22. 如何從PHP生成的HTML頁面獲取正文內容?
- 23. ColdFusion:從.msg文件中提取信息
- 24. 提取excel文件的內容
- 25. 提取xml文件的內容
- 26. 提取文件夾的內容
- 27. 在C#中創建outlook .msg文件
- 28. 使用python解析outlook .msg文件
- 29. 如何使用Powershell從.msg文件中提取郵件標題?
- 30. 如何從msg文件中提取附件
應該做的。當你嘗試它時有多少工作?什麼沒有? – Gagravarr