2016-05-19 214 views
3

場景:我使用Apache TikaDOCX文件獲得XHTML。我需要解析此XHTML以在特定標記(例如div或p標記)之間獲取文本。爲此,我使用Jsoup在標籤之間獲取文本。JSoup-在標籤之間獲取文本

問題:本來XHTML有這樣的文字:

some text [tab-space][tab-space] other text. 

但隨着Jsoup我得到這個:

some text other text. 

所以標籤空間失蹤,但我需要獲取文本因爲它包括tag-spaces。是否有可能使用Jsoup或者是否有其他Java庫這樣做?

回答

5

使用getWholeText方法TextNodes:https://jsoup.org/apidocs/org/jsoup/nodes/TextNode.html#getWholeText--

final Document doc = Jsoup.parse(new File(".\\source.xhtml"), "UTF-8"); 

for (Element result : doc.select("div")) { 
    final String text = ((TextNode) result.childNode(0)).getWholeText(); 
    System.out.println(text); 
} 
+0

感謝....它的工作原理正是我想要的:-) –