2013-04-05 51 views
1

我正在使用Selenium'廢棄'尋找反向鏈接到我的網站的頁面。我一直在使用普通捲曲來刮擦,但是,對於JavaScript來說,捲曲不會很好(事實上他們根本不會玩)。使用Selenium檢索反向鏈接,HTTP代碼和IP地址

我的問題是,我需要HTTP頭響應(200,301,404,503等)代碼從我刮的網頁。理想情況下,我喜歡獲取我所刮取域名的IP地址。

我在下面的鏈接使用PHP的PHP PHP webdriver的PHP,我無法找到我如何檢索任何頭信息。

https://github.com/facebook/php-webdriver

我的問題是,有沒有辦法讓硒返回頭信息和或IP地址?

如果你不知道這個問題的答案,那麼你知道更好的方法來刮和/或獲得HTTP頭?

在此先感謝。

回答

2

Selenium不執行HTTP狀態碼或標題。我從來沒有使用它,但通常建議的工具是由Selenium提交者之一創建的BrowserMob proxy。它捕獲請求和響應,包括標題,狀態代碼和時間信息。