2014-06-15 16 views
1

我搜索了一個關於我的困境的答案,但到目前爲止已經很短​​了 - 在我的結果中沒有明顯的解決方案(並且我花了相當多的時間嘗試各種帖子中的建議似乎是半相關的)。好吧,現在到肉:使用Jsoup查找未加標籤的文本

我有一段html,我想從中獲取一些文本 - 但問題是,文本看起來沒有標籤(並且它不是100%的發生 - 在一定的瞭解的情況下就文本沒有低於標籤)HTML示例:

<html> 
<head></head> 
<body> 
    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : . . 
    <a href="?act=Q&amp;ID=249629586" target="R"><b>Post title that I have removed</b></a> &lt; 
    <span class="hnd anon">PosterHandleIReplaced</span> &gt; 
    <font size="1">06/15 11:41&nbsp;&nbsp;</font> 
</body> 
</html> 

所以,我想抓住文本的部分是<body>之間<a href>,在這裏:

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; : . . 

但我沒有看到一種方法來抓取只有那個文字。當我嘗試將文檔或元素轉換爲文本時,它最終將整個html塊轉換爲字符串並將其返回給我,這不是我想要的。我想我可以把整個字符串解析出來 - 但是這看起來似乎是可笑的錯誤 - 更不用說了:。 。部分實際上可能會更長 - 取決於線程中響應的位置(如果它埋在線程中,它可能看起來像:。:。:。:。。等等)。

任何幫助將不勝感激!

回答

1

Jsoup在文本節點中存儲文本 - 給定元素(在您的示例中爲body元素),您可以調用e.textNodes()來獲取其文本節點的列表。在這種情況下,您將查看列表中的第一項。 textNodes文檔中有一個小示例,顯示該方法與其他子級吸氣方法的關係,這可能對更復雜的任務有所幫助。

+0

這正是我最終做的 - 感謝您指出了這一點。如果我有名譽,我會投票給你。 – sfunk1x

+0

我有15個代表接受了答案,但你總是可以稍後再回來upvote。 –