我的目的是使用刮蜘蛛的幾個網址,如如下:製作蜘蛛restarable
import scrapy
from ..items import ContentsPageSFBItem
class BasicSpider(scrapy.Spider):
name = "contentspage_sfb"
#allowed_domains = ["web"]
start_urls = [
'https://www.safaribooksonline.com/library/view/shell-programming-in/9780134496696/',
'https://www.safaribooksonline.com/library/view/cisa-certified-information/9780134677453/'
]
def parse(self, response):
item = ContentsPageSFBItem()
#from scrapy.shell import inspect_response
#inspect_response(response, self)
content_items = response.xpath('//ol[@class="detail-toc"]//a/text()').extract()
for content_item in content_items:
item['content_item'] = content_item
item["full_url"] = response.url
item['title'] = response.xpath('//title[1]/text()').extract()
yield item
我打算用更多的URL。我的意圖是創建一個可重新啓動的蜘蛛防止出現問題。我的計劃是添加例外,並創建一個csv與剩餘網址的列表。我在哪裏可以添加此功能?
我想知道如何爲每個url創建一個單獨的csv。另外我想跳過任何異常的迭代。但是我應該修改哪個文件? –
我試圖重現你試圖達到的目標,是這樣的嗎? –
你的意思是'start_urls'嗎? –