如何停止將目標網址重定向至另一個具有驗證碼的網站確認頁面?Scrapy:使用驗證碼重定向至確認頁面
這裏是我下面的代碼:
yield scrapy.Request(meta={'handle_httpstatus_list': [302], 'dont_redirect': True, 'redirect_enabled':False},url=url, callback=self.profileCategoryPages)
現在它重定向我從網頁上的另一個網頁。我不知道它爲什麼會發生。當我第一次運行它時沒有發生,但是當我第二次運行並且一次又一次運行時,我得到的只是它重定向到另一個網頁。
Tagget頁: http://www.profilecanada.com/browse_by_category.cfm/
重定向到這個頁面: http://www.profilecanada.com/confirmReqPage.cfm
謝謝您的幫助!
你能發佈抓取日誌嗎?您可以通過'scrapy crawl spider --logfile output.log'或'scrapy crawl spider 2> 1 | tee output.log'命令(後者將輸出放到屏幕和文件中)。您可能未被重定向,但該網站已將您標記爲機器人,並向您展示catpcha-gated內容,因爲它不信任您。 – Granitosaurus
是的。剛剛發現我被阻止訪問該網站。你有什麼建議先生?謝謝。 –
這是一個非常廣泛的問題。首先,你需要弄清楚你爲什麼被驗證碼。他們爲什麼認爲你是機器人?你的請求看起來是人類嗎?從檢查用戶代理標題和其他標題開始是一個好主意。他們認爲你是一個機器人,因爲你爬行速度很快?那麼你需要添加一些延遲或獲得一些代理。 – Granitosaurus