2014-11-06 90 views
0

所以我有一個Scrapy項目設置工作,我已經啓用了ROBOTSTXT_OBEY中間件其工作的robot.txt文件罰款是按以下格式:Scrapy ROBOTSTXT_OBEY並非在所有情況下

用戶代理:* 不允許:/工具/

但是當在以下格式的robots.txt文件網站相同的蜘蛛它不工作:

用戶代理:* 禁止:*下一

Th是應該被robots.txt阻止的頁面仍然被抓取的結果,順便說一句,這是robots.txt文件完全有效的標記。

只是想知道是否有人可以解釋爲什麼這可能是什麼?

+0

我不是中間件的家庭,但您確定它是robots.txt條目格式?中間件是否可以提供有關多個併發請求的文檔頁面的警告? – dm03514 2014-11-06 15:12:19

+0

看起來像是由於使用了不支持通配符的Python標準robots.txt解析器:/ – Adders 2014-11-06 16:17:22

回答

0

Scrapy使用不支持通配符的Python標準robots.txt解析器。

相關問題