2014-09-23 23 views
0

在使用硒時,剛纔我解析selenium的輸出getPageSource()方法時出錯。 使用具有硒火狐驅動火狐=Selenium Web驅動程序getPageSource()錯誤的包含轉義值的屬性和值

<meta name="news_keywords" content="devo max,independence vote,no campaign,referendum,scotland \"no\" vote,scotland independence,scotland powers,scotland referendum,scotland vote,scottish referendum" /> 

getPageSource()方法結果的網頁源代碼的實際元標記=

<meta referendum"="" vote,scottish="" referendum,scotland="" powers,scotland="" independence,scotland="" vote,scotland="" no\"="" content="devo max,independence vote,no campaign,referendum,scotland \" name="news_keywords" /> 

它非常荒謬和創建的HTML輸出的進一步的處理的問題。 任何建議或幫助或解決方法?

回答

1

從文檔:

getPageSource

java.lang.String中getPageSource()

獲取最後加載頁面的源代碼。如果頁面在加載(例如,通過Javascript)後被修改爲 ,則不能保證 返回的文本是修改頁面的文本。請參閱 正在使用的特定驅動程序的文檔,以確定返回的文本是否反映了網頁當前的狀態或上次由Web服務器發送的文本 。返回的頁面源是底層DOM的 表示:不要期望將其格式化爲 或以與從Web服務器發送的響應相同的方式轉義。 把它當作藝術家的印象。

返回: 當前頁面

http://selenium.googlecode.com/git/docs/api/java/org/openqa/selenium/WebDriver.html#getPageSource%28%29

+0

任何方式得到它的事情應該是這樣的來源是什麼?我的意思是正確的方式? – 2014-09-23 07:30:01

相關問題