2016-11-09 22 views
0

我有一個scrapy項目,它抓取給定網站的所有內部鏈接。這工作正常,但是我們發現了一些情況,我們想限制抓取到網站的特定部分。如何將scrapy限制在網站的特定部分,例如http://www.domain.com/section/

例如,如果你可以想象銀行有一個特殊的投資者信息部分,例如, http://www.bank.com/investors/

因此,在上面的示例中,只有http://www.bank.com/investors/中的所有內容都將被抓取。例如,http://www.bank.com/investors/something/http://www.bank.com/investors/hello.htmlhttp://www.bank.com/investors/something/something/index.php

我知道我可以寫上parse_url某些哈克代碼掃描URL和不及格,如果它不符合我的要求(即它不是/投資/),但似乎可怕。

有沒有一個很好的方法來做到這一點?

謝謝。

回答

0

我想通了。

您需要爲要允許的模式添加allow()。

例如:

Rule(LinkExtractor(allow=(self.this_folder_only)), callback="parse_url", follow=True) 

一切將被拒絕。

相關問題