如何將scrapy限制在網站的特定部分，例如http://www.domain.com/section/

我有一個scrapy項目，它抓取給定網站的所有內部鏈接。這工作正常，但是我們發現了一些情況，我們想限制抓取到網站的特定部分。如何將scrapy限制在網站的特定部分，例如http://www.domain.com/section/

例如，如果你可以想象銀行有一個特殊的投資者信息部分，例如， http://www.bank.com/investors/

我知道我可以寫上parse_url某些哈克代碼掃描URL和不及格，如果它不符合我的要求（即它不是/投資/），但似乎可怕。

有沒有一個很好的方法來做到這一點？

謝謝。

2016-11-09 Tom Brock

我想通了。

您需要爲要允許的模式添加allow（）。

例如：

Rule(LinkExtractor(allow=(self.this_folder_only)), callback="parse_url", follow=True)

一切將被拒絕。

2016-11-09 12:41:28

回答