2013-02-01 71 views
0

無論我使用Firefox還是GoogleBot都無所謂,該網站仍將我視爲bot。Goutte,網站如何看到我是機器人?

我正在嘗試使用Goutte創建爬網程序。該網站有一個抓取工具攔截系統,但我無法弄清楚如何避免它。這是我當前的代碼:

​​

正如你可以看到我已經改變了用戶代理,和我已經測試,它是由爬行本地文件,記錄該用戶代理正確地改變。

仍然該網站莫名其妙地認出我是一個機器人。有任何想法嗎?

+9

你正在使用UA字符串「googlebot」,並想知道它是如何知道你是一個機器人嗎?常識:零。 –

+1

@Kinkink - 這有點苛刻...不,你說得對:) –

+0

它並不重要,我用什麼。 – NikolajSvendsen

回答

0

你有沒有嘗試過使用Firefox瀏覽器或只是其用戶代理字符串? 如果您還沒有使用過Firefox瀏覽器,那就使用Firebug插件('Net'panel)或Tamperdata插件或Wireshark來捕獲請求的細節,以獲得成功的響應。

如果你無法使用firefox獲得成功的響應,那麼它不可能僅阻止機器人。

如果您可以複製導致響應成功的請求。

你也許還會說「你的網站仍然把我看成是一個機器人」 - 你究竟得到了什麼迴應?

0

用wireshark嗅探它並檢查HTTP頭。

相關問題