2014-02-25 43 views
0

我試圖檢索使用Selenium class WebDriver網頁的HTML源代碼的HTML文檔。但函數getPageSource()將返回不帶任何屬性的引號的HTML文檔。

因爲這個,DOM解析器會拋出org.xml.sax.SAXParseException:Open quote is expected for attribute異常。

有沒有解決這個問題的方法?org.openqa.selenium.WebDriver.getpageSource返回不帶引號

回答

0

我認爲你不應該將它用於此目的。從API doc

java.lang.String中getPageSource()

獲取最後加載頁面的源代碼。如果頁面在加載(例如,通過Javascript)後被修改爲 ,則不能保證 返回的文本是修改頁面的文本。請參考特定的驅動程序的 文件用於確定返回的文本是否 反映網頁或文本 的當前狀態,最後由網絡服務器發送。返回的頁面源是底層DOM的 表示:不要期望將其格式化爲 或以與從Web服務器發送的響應相同的方式轉義。 把它當作藝術家的印象。

無論如何,我建議嘗試另一個瀏覽器,如果你真的需要使用WebDriver這個和你目前的瀏覽器不能正常工作。我只是試着用FireFoxDriver(驅動程序v2.40),我在那裏有我的報價。

+0

但我只需要在IE中執行測試用例。沒有其他borwser允許 – Ashwin