0
我有一個scrapy項目,它抓取給定網站的所有內部鏈接。這工作正常,但是我們發現了一些情況,我們想限制抓取到網站的特定部分。如何將scrapy限制在網站的特定部分,例如http://www.domain.com/section/
例如,如果你可以想象銀行有一個特殊的投資者信息部分,例如, http://www.bank.com/investors/
因此,在上面的示例中,只有http://www.bank.com/investors/中的所有內容都將被抓取。例如,http://www.bank.com/investors/something/,http://www.bank.com/investors/hello.html,http://www.bank.com/investors/something/something/index.php
我知道我可以寫上parse_url某些哈克代碼掃描URL和不及格,如果它不符合我的要求(即它不是/投資/),但似乎可怕。
有沒有一個很好的方法來做到這一點?
謝謝。