從xml文檔中提取純文本最簡單的方法是什麼？

但是如果您不需要將它集成到Java程序中，我可能會使用XSLT 2.0（Saxon is free）。 XSLT 1.0將不允許多個輸出文檔，但XSLT 2.0將會更容易，並且它還將使「里程碑標記」（您的「pg」處理指令）更容易分組。如果您對這種方法感興趣，只需詢問...並提供有關輸入文檔結構的更多信息。

P.S.即使您需要將做到需要將其集成到Java程序中，您可以從Java調用XSLT - 例如，Saxon是用Java編寫的。不過，我認爲如果你只是在處理PI和文本，那麼使用SAX解析器就不那麼費力。

來源

2010-10-18 20:21:06 LarsH

+1對於XSLT 2.0推薦。 – 2010-10-18 22:39:41

你可以用Apache Tika像這樣做：如果

使用maven

byte[] value = //your xml content as a byte array 
    Parser parser = new XMLParser() 
    org.xml.sax.ContentHandler textHandler = new BodyContentHandler(-1) 
    Metadata metadata = new Metadata() 
    ParseContext context = new ParseContext() 
    parser.parse(new ByteArrayInputStream(value), textHandler, metadata, context) 
    return textHandler.toString()

，你可能會想這兩者的下面：

  <dependency> 
      <groupId>org.apache.tika</groupId> 
      <artifactId>tika-core</artifactId> 
      <version>1.13</version> 
     </dependency> 
     <dependency> 
      <groupId>org.apache.tika</groupId> 
      <artifactId>tika-parsers</artifactId> 
      <version>1.13</version> 
     </dependency>

來源

2016-11-15 18:06:02 Sean

從xml文檔中提取純文本最簡單的方法是什麼？

回答

相關問題