我正在抓取一個網站,並試圖將輸出保存在MongoDB中。它注意到代碼是好的,但是當我嘗試了一個簡單的輸出(scrapy抓取IR -o items.json -t json)時,該文件變爲空白......但是蜘蛛的日誌顯示數據被刮掉了......Scrapy空輸出,但數據被刮
這裏是我的蜘蛛代碼
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from teste.items import IngressoRapidoItem
class IngressoRapidoSpider(BaseSpider):
name = "IR"
allowed_domains = ["ingressorapido.com.br"]
start_urls = (
'http://www.ingressorapido.com.br/eventos.aspx?genero=55',
)
def parse(self, response):
hxs = HtmlXPathSelector(response)
items = []
item = IngressoRapidoItem()
item['banda'] = hxs.select('normalize-space(//a[contains(@href,"Evento")] /text())').extract()
item['local'] = hxs.select('normalize-space(//td/span[contains(@style, "normal")]/text())').extract()
items.append(item)
return items
任何人都猜測爲什麼輸出爲null,即使數據被廢棄? 在此先感謝
日誌看起來像什麼?你可以上傳內容嗎? – enginefree
如果您運行scrapy runspider .py -o out.json',會發生什麼情況? –
alecxe
alecxe,用你告訴我的命令輸出完美!您能否給我進一步解釋,以及scrapy爬行/管道爲什麼不起作用? –