JSoup-在標籤之間獲取文本

場景：我使用Apache Tika從DOCX文件獲得XHTML。我需要解析此XHTML以在特定標記（例如div或p標記）之間獲取文本。爲此，我使用Jsoup在標籤之間獲取文本。JSoup-在標籤之間獲取文本

問題：本來XHTML有這樣的文字：

some text [tab-space][tab-space] other text.

但隨着Jsoup我得到這個：

some text other text.

所以標籤空間失蹤，但我需要獲取文本因爲它包括tag-spaces。是否有可能使用Jsoup或者是否有其他Java庫這樣做？

來源

2016-05-19 uzair_syed

使用getWholeText方法TextNodes：https://jsoup.org/apidocs/org/jsoup/nodes/TextNode.html#getWholeText--

final Document doc = Jsoup.parse(new File(".\\source.xhtml"), "UTF-8"); 

for (Element result : doc.select("div")) { 
    final String text = ((TextNode) result.childNode(0)).getWholeText(); 
    System.out.println(text); 
}

來源

2016-05-19 16:05:29

感謝....它的工作原理正是我想要的:-) –

JSoup-在標籤之間獲取文本

回答

相關問題