0
這是我第一次創建一個蜘蛛,儘管我的努力,它仍然沒有任何回報我的CSV導出。我的代碼是:Scrapy:蜘蛛沒有任何返回
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
class Emag(CrawlSpider):
name = "emag"
allowed_domains = ["emag.ro"]
start_urls = [
"http://www.emag.ro/"]
rules = (Rule(SgmlLinkExtractor(allow=(r'www.emag.ro')), callback="parse", follow= True))
def parse(self, response):
sel = Selector(response)
sites = sel.xpath('//a/@href').extract()
for site in sites:
site = str(site)
for clean_site in site:
name = clean_site.xpath('//[@id=""]/span').extract()
return name
事情是,如果我打印的網站,它給我一個網址列表,這是確定的。如果我在scrapy shell中的某個URL中搜索名稱,它會找到它。問題是當我所有的鏈接所有名稱爬行。我運行它與「scrapy crawl emag> emag.csv」
你能給我一個提示什麼是錯的?在蜘蛛
很多花時間。但它仍然沒有提取;它的錯誤與xpath選擇也是? – user3753592
@ user3753592嘗試以這種方式運行蜘蛛:'scrapy crawl -o output.csv -t csv'。 – alecxe
thks,那是我運行它們的最初方式。無論如何,我仍然有空文件 – user3753592