Scrapy：使用驗證碼重定向至確認頁面

如何停止將目標網址重定向至另一個具有驗證碼的網站確認頁面？Scrapy：使用驗證碼重定向至確認頁面

這裏是我下面的代碼：

yield scrapy.Request(meta={'handle_httpstatus_list': [302], 'dont_redirect': True, 'redirect_enabled':False},url=url, callback=self.profileCategoryPages)

現在它重定向我從網頁上的另一個網頁。我不知道它爲什麼會發生。當我第一次運行它時沒有發生，但是當我第二次運行並且一次又一次運行時，我得到的只是它重定向到另一個網頁。

Tagget頁： http://www.profilecanada.com/browse_by_category.cfm/

重定向到這個頁面： http://www.profilecanada.com/confirmReqPage.cfm

謝謝您的幫助！

來源

2017-07-27 RF_956

你能發佈抓取日誌嗎？您可以通過'scrapy crawl spider --logfile output.log'或'scrapy crawl spider 2> 1 | tee output.log'命令（後者將輸出放到屏幕和文件中）。您可能未被重定向，但該網站已將您標記爲機器人，並向您展示catpcha-gated內容，因爲它不信任您。 – Granitosaurus

是的。剛剛發現我被阻止訪問該網站。你有什麼建議先生？謝謝。 –

這是一個非常廣泛的問題。首先，你需要弄清楚你爲什麼被驗證碼。他們爲什麼認爲你是機器人？你的請求看起來是人類嗎？從檢查用戶代理標題和其他標題開始是一個好主意。他們認爲你是一個機器人，因爲你爬行速度很快？那麼你需要添加一些延遲或獲得一些代理。 – Granitosaurus

我認爲我被阻止的原因是我從網站請求頁面時沒有延遲值。此外，我創建了蜘蛛作爲獨立的刮板程序，因此，沒有settings.py可以修改。我所做的是這樣的：

運行創建刮刀作爲projecy：

scrapy startproject命令
加了我以前創建的程序刮刀這是我的新創建的項目中的蜘蛛文件夾
Modiy的settings.py：

DOWNLOAD_DELAY =， CONCURRENT_REQUESTS = 20， CONCURRENT_REQUESTS_PER_DOMAIN = 1， DOWNLOAD_TIMEOUT = 30

現在，它的作品！

來源

2017-08-18 07:51:59

Scrapy：使用驗證碼重定向至確認頁面

回答

相關問題