1
我有包含文本和圖像的ms word文檔。我想分析他們有他們的xml結構。經過研究,我最終使用Apache tika轉換我的文檔。我可以將我的文檔解析爲xml。這裏是我的代碼:使用Apache tika在doc文件中獲得嵌入式資源
AutoDetectParser parser=new AutoDetectParser();
InputStream input=new FileInputStream(new File("1.docx"));
Metadata metadata = new Metadata();
StringWriter sw = new StringWriter();
SAXTransformerFactory factory = (SAXTransformerFactory)SAXTransformerFactory.newInstance();
TransformerHandler handler = factory.newTransformerHandler();
handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "xml");
handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "no");
handler.setResult(new StreamResult(sw));
parser.parse(input, handler, metadata, new ParseContext());
String xhtml = sw.toString();
我想從文檔中提取圖像並將它們轉換爲二進制格式。我不知道如何從文檔中提取嵌入式資源。
和另一個問題。在解析方法中,可以找出支持類型中聲明的輸出嵌入文件的格式,並將正確的類型替換爲.bin? –
您可以從MimeTypesRegistry – Gagravarr
查找建議的擴展。非常感謝。你是最好的 ;) –