得到禁止使用robots.txt：scrapy

而爬行網站像https://www.netflix.com，使用robots.txt得到禁止：https://www.netflix.com/>得到禁止使用robots.txt：scrapy

錯誤：沒有響應下載爲：https://www.netflix.com/

robots.txt的僅僅是一個文本文件，機器人的尊重，它不能做任何事情不許你。 Netflix可能還有其他障礙。 – Selcuk

在推出的新版本（scrapy 1.1）中，2016-05-11爬網首先在爬網之前下載robots.txt。要更改您的settings.py這種行爲變化與ROBOTSTXT_OBEY

ROBOTSTXT_OBEY=False

2016-05-17 14:24:08

您需要確保的第一件事是您在請求中更改您的用戶代理，否則默認用戶代理將被阻止。

2016-05-17 13:23:52

回答