3
場景:我使用Apache Tika
從DOCX
文件獲得XHTML
。我需要解析此XHTML
以在特定標記(例如div或p標記)之間獲取文本。爲此,我使用Jsoup
在標籤之間獲取文本。JSoup-在標籤之間獲取文本
問題:本來XHTML
有這樣的文字:
some text [tab-space][tab-space] other text.
但隨着Jsoup
我得到這個:
some text other text.
所以標籤空間失蹤,但我需要獲取文本因爲它包括tag-spaces
。是否有可能使用Jsoup
或者是否有其他Java
庫這樣做?
感謝....它的工作原理正是我想要的:-) –