2011-05-13 145 views
9

HtmlUnit for Java很棒,但我一直無法弄清楚如何查看完整源代碼或將網站源代碼作爲字符串返回。誰能幫我這個?HtmlUnit來查看源代碼

我知道以下將閱讀網站,但現在我只想將源返回到一個字符串。

HtmlPage mySite = webClient.getPage("http://mysite.com"); 

謝謝!

回答

12

從通過API看,我的想法是:

mySite.getWebResponse().getContentAsString(); 
+0

'toString()'方法絕對不行,我不確定第二個。聽起來像它可能工作,但我從來沒有嘗試過。 – 2011-05-13 20:00:21

+0

mySite.getWebResponse()。getContentAsString();作品!它會返回所有源,就像您從頁面上下文菜單中選擇「查看源代碼」一樣!謝謝! – 2011-05-13 20:14:45

+2

這就是'asXml()'方法在HtmlPage上所做的。這可能是「接受」的答案,但這不是HtmlUnit希望您獲取該信息的方式。 – 2011-05-13 20:55:53

2

你試過mySite.asXml()?或者你也可以做mySite.getDocumentElement().toString()

14
String pageSource = myPage.asXml(); 

,將讓你的網頁的完整HTML源。

String pageText = myPage.asText(); 

這會讓你看到頁面上的所有可見文本,包括換行符/空格。如果您在瀏覽器的頁面上,並且Ctrl+A,然後Ctrl+V變成了一個變量,那也是一樣的。