而爬行網站像https://www.netflix.com,使用robots.txt得到禁止:https://www.netflix.com/>得到禁止使用robots.txt:scrapy
錯誤:沒有響應下載爲:https://www.netflix.com/
而爬行網站像https://www.netflix.com,使用robots.txt得到禁止:https://www.netflix.com/>得到禁止使用robots.txt:scrapy
錯誤:沒有響應下載爲:https://www.netflix.com/
在推出的新版本(scrapy 1.1)中,2016-05-11爬網首先在爬網之前下載robots.txt。要更改您的settings.py
這種行爲變化與ROBOTSTXT_OBEY
ROBOTSTXT_OBEY=False
您需要確保的第一件事是您在請求中更改您的用戶代理,否則默認用戶代理將被阻止。
robots.txt的僅僅是一個文本文件,機器人的尊重,它不能做任何事情不許你。 Netflix可能還有其他障礙。 – Selcuk