2016-08-28 18 views
0

我在Selenium Library中使用Java來刮取網頁。當我使用Firefox中的Firebug的頁面上,我可以看到,頁面的源代碼包含以下HTML結構:我如何獲得Firebug以匹配HtmlUnitDriver的pageSource報告?

<div> 
    <div> 
     <table> 
      <caption /> 
      <thead /> 
      <tbody /> 
     </table> 
    </div> 
</div> 

然而,當我使用HtmlUnitDriver編程下載網頁的源代碼,然後使用driver.getPageSource()我看到相應的HTML結構已更改爲:

<div> 
    <table> 
     <caption /> 
     <tbody /> 
    </table> 
</div> 
  1. 爲什麼HtmlUnitDriver的報告有所不同,通過螢火蟲給?
  2. 我可以設置firebug,以便我可以根據HtmlUnitDriver如何報告它來檢查HTML結構嗎?

回答

1

請注意,Firebug不會以這種方式調整HTML結構,即集成的開發人員工具應該會顯示相同的結果。

我假設第二個包裝<div><thead>通過頁面上運行的一些JavaScript添加。

您可以通過禁用JavaScript來檢查通過about:config並將javascript.enabled設置爲false或通過像NoScript或Ghostery之類的附加組件。

+0

很抱歉對已故的評論 - 我離開了我的電腦幾天。我禁用了JavaScript,然後使用Firebug檢查了頁面的HTML,然後結果與HtmlUnitDriver的報告相同。非常感謝! – Martin