2014-03-05 50 views
0

我試圖提取只有下面的div中的文本,但不是a中的文本。如何忽略HtmlUnit中的子元素內容

<div class="about"> 
    <a class="link" href="www.example.com"> Text I don't Want </a> 
" Text I do want " 
</div> 

這是我的代碼:

HtmlDivision personAge = htmlPage.getByXPath("//div[@class='about']");  
String personAgeText = personAge.asText(); 
System.out.println(personAgeText); 

輸出:

Text I don't Want Text I do want 

我想以某種方式排除元素a的內容。有什麼建議麼?謝謝!

回答

0

嘗試在當前的XPath的末尾添加/text()

//div[@class='about']/text() 

/text()將帶給你的所有文本節點是當前元素(<div class="about">在這種情況下)的直接孩子。