無論我使用Firefox還是GoogleBot都無所謂,該網站仍將我視爲bot。Goutte,網站如何看到我是機器人?
我正在嘗試使用Goutte創建爬網程序。該網站有一個抓取工具攔截系統,但我無法弄清楚如何避免它。這是我當前的代碼:
正如你可以看到我已經改變了用戶代理,和我已經測試,它是由爬行本地文件,記錄該用戶代理正確地改變。
仍然該網站莫名其妙地認出我是一個機器人。有任何想法嗎?
無論我使用Firefox還是GoogleBot都無所謂,該網站仍將我視爲bot。Goutte,網站如何看到我是機器人?
我正在嘗試使用Goutte創建爬網程序。該網站有一個抓取工具攔截系統,但我無法弄清楚如何避免它。這是我當前的代碼:
正如你可以看到我已經改變了用戶代理,和我已經測試,它是由爬行本地文件,記錄該用戶代理正確地改變。
仍然該網站莫名其妙地認出我是一個機器人。有任何想法嗎?
你有沒有嘗試過使用Firefox瀏覽器或只是其用戶代理字符串? 如果您還沒有使用過Firefox瀏覽器,那就使用Firebug插件('Net'panel)或Tamperdata插件或Wireshark來捕獲請求的細節,以獲得成功的響應。
如果你無法使用firefox獲得成功的響應,那麼它不可能僅阻止機器人。
如果您可以複製導致響應成功的請求。
你也許還會說「你的網站仍然把我看成是一個機器人」 - 你究竟得到了什麼迴應?
用wireshark嗅探它並檢查HTTP頭。
你正在使用UA字符串「googlebot」,並想知道它是如何知道你是一個機器人嗎?常識:零。 –
@Kinkink - 這有點苛刻...不,你說得對:) –
它並不重要,我用什麼。 – NikolajSvendsen