0
在scrapy中,有一個選項可以限制對某些域進行爬網,即將它們放入allowed_domains變量中。根據模式禁用scrapy中的子域並篩選鏈接
- 我該如何禁止爬蟲運行到某些子域?
- 我該如何禁止爬蟲跟蹤特定模式的鏈接,例如:包含「?login =」或
- 是否有可能只遵循鏈接滿足一些正則表達式模式?
在scrapy中,有一個選項可以限制對某些域進行爬網,即將它們放入allowed_domains變量中。根據模式禁用scrapy中的子域並篩選鏈接
this怎麼樣?我認爲文檔是一個很好的閱讀地方 - 你可以在allow
旁找到deny
的參數,並且它們可以使用正則表達式。