我需要將一個docx的所有文本放在一個字符串生成器中,也可以使用製表符和連字符。 我試過使用org.docx4j.TextUtils,但在結果字符串中沒有看到選項卡。用docx4j顯示一個字符串生成器中的docx的所有文本
String inputfilepath = System.getProperty("user.home") + "test.docx";
WordprocessingMLPackage wordMLPackage = WordprocessingMLPackage.load(new java.io.File(inputfilepath));
MainDocumentPart documentPart = wordMLPackage.getMainDocumentPart();
org.docx4j.wml.Document wmlDocumentEl = (org.docx4j.wml.Document)documentPart.getJaxbElement();
Writer out = new OutputStreamWriter(System.out);
extractText(wmlDocumentEl, out);
out.close();
喜賈森,我使用(1.)方法getContent()。getChildren並分析所有的孩子(instanceof Run,sdtBlock,text R.Tab,R.SoftHyphen ecc ..)但是很難,因爲我必須處理許多文檔,每個文檔都有一個不同的結構,所以我害怕不能一概而論。我在(3)方法中更有趣,因爲我必須在文檔中搜索一個單詞的多少個實例。那麼我怎樣才能將主文檔編成一個字符串呢?它也是標籤? – Matt3o 2014-10-04 07:53:33
查看更新的答案。是的,你會看到w:tab – JasonPlutext 2014-10-05 20:38:23
我已經嘗試了第三種方法,但是我已經看到它在字符串中填充xml結構,所以它對我來說並不好,因爲字符分段運行。我認爲第一種方法更好,你有什麼提示來推廣遍歷方法嗎? – Matt3o 2014-10-06 08:49:23