我看到有一個名爲WordToHtmlConverter
的轉換器,但未公開流程方法。我應該如何通過doc文件並獲取HTML文件(或OutputStream
)?使用Apache POI將Word轉換爲HTML
9
A
回答
18
此代碼現在爲我工作!
HWPFDocumentCore wordDocument = WordToHtmlUtils.loadDoc(new FileInputStream("D:\\temp\\seo\\1.doc"));
WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(
DocumentBuilderFactory.newInstance().newDocumentBuilder()
.newDocument());
wordToHtmlConverter.processDocument(wordDocument);
Document htmlDocument = wordToHtmlConverter.getDocument();
ByteArrayOutputStream out = new ByteArrayOutputStream();
DOMSource domSource = new DOMSource(htmlDocument);
StreamResult streamResult = new StreamResult(out);
TransformerFactory tf = TransformerFactory.newInstance();
Transformer serializer = tf.newTransformer();
serializer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");
serializer.setOutputProperty(OutputKeys.INDENT, "yes");
serializer.setOutputProperty(OutputKeys.METHOD, "html");
serializer.transform(domSource, streamResult);
out.close();
String result = new String(out.toByteArray());
System.out.println(result);
+0
我可以得到它的整個代碼..? –
+0
謝謝羅恩。你的建議救了我。我嘗試提供的示例,但它跳過圖中的圖像,表格和內容(如框)。有沒有什麼辦法可以提取它。我看到幾個例子單獨提取圖像。有什麼辦法讓所有人都聚在一起。否則,我們可以將這些圖像,表格恰好放置在原始文件的位置。意味着滿足「將DOC文件呈現爲HTML內容」(不跳過圖像,表格,圖表等)的要求 –
相關問題
- 1. Java:使用apache POI如何將ms word文件轉換爲pdf?
- 2. 使用Apache POI將byteArray轉換爲XSSFWorkbook
- 3. 使用Apache POI在Java中將.doc轉換爲.html
- 4. 使用Apache POI將部分.dox文檔轉換爲html
- 5. 使用Apache Poi將doc文件轉換爲html
- 6. 如何使用Apache POI將.XLS轉換爲.HTML文件?
- 7. 使用Apache POI庫將Excel電子表格轉換爲HTML
- 8. 使用phpword將html轉換爲word
- 9. 將html轉換爲word c#
- 10. 是否可以使用Apache POI解析MS Word並將其轉換爲XML?
- 11. 使用poi轉換ms word 2007
- 12. Apache POI - 將.html電子表格轉換爲.xls電子表格
- 13. Apache POI Word教程。
- 14. 如何使用Apache POI將HSSFWorkbook轉換爲XSSFWorkbook?
- 15. 使用Apache poi將csv轉換爲xls/xlsx?
- 16. 使用IKVM.Net將Apache POI .jar轉換爲.dll
- 17. 使用Apache POI將.docx轉換爲html並獲取不到文本
- 18. 如何將.docx轉換爲使用apache poi的html,其中還包括圖像
- 19. 如何使用APACHE POI或其他方式將MS PowerPoint 2003/2007轉換爲HTML?
- 20. 使用Apache POI將HTML格式化的單元格值轉換爲Excel 1
- 21. 在Apache POI中使用WordToHtmlConverter轉換器
- 22. Apache POI Word .DOC替換文本
- 23. 快速將Word文檔轉換爲HTML
- 24. 在html中使用docx4j將html轉換爲word文檔
- 25. 如何從MS Word中使用Apache POI
- 26. 使用Apache POI編輯Word文檔
- 27. 使用Java,Apache POI寫入word tablecell?
- 28. 。將HTML轉換爲word文檔
- 29. 將HTML轉換爲Word文檔
- 30. 將MS Word內容轉換爲HTML
這是你要求的嗎? http://stackoverflow.com/questions/227236/convert-word-doc-to-html-programmatically-in-java – enrique2334
這不是...在Apache POI他們有一個新的類在包org.apache.poi .hwpf.converter來處理...但找不到任何教程如何使用它們。 – Ron