所以,我的問題相對比較簡單。我有一個蜘蛛抓取多個網站,我需要它按照我在代碼中寫入的順序返回數據。它張貼在下面。訂單中的Scrapy抓取網址
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from mlbodds.items import MlboddsItem
class MLBoddsSpider(BaseSpider):
name = "sbrforum.com"
allowed_domains = ["sbrforum.com"]
start_urls = [
"http://www.sbrforum.com/mlb-baseball/odds-scores/20110328/",
"http://www.sbrforum.com/mlb-baseball/odds-scores/20110329/",
"http://www.sbrforum.com/mlb-baseball/odds-scores/20110330/"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//div[@id="col_3"]//div[@id="module3_1"]//div[@id="moduleData4952"]')
items = []
for site in sites:
item = MlboddsItem()
item['header'] = site.select('//div[@class="scoreboard-bar"]//h2//span[position()>1]//text()').extract()# | /*//table[position()<2]//tr//th[@colspan="2"]//text()').extract()
item['game1'] = site.select('/*//table[position()=1]//tr//td[@class="tbl-odds-c2"]//text() | /*//table[position()=1]//tr//td[@class="tbl-odds-c4"]//text() | /*//table[position()=1]//tr//td[@class="tbl-odds-c6"]//text()').extract()
items.append(item)
return items
結果以隨機順序返回,例如返回第29個,然後是第28個,然後是第30個。我已經嘗試將DFO的調度程序順序改爲BFO,以防萬一這是問題所在,但這並沒有改變任何事情。
在此先感謝。
卡安你告訴我們,你是如何調用你的蜘蛛? –
>我有一個蜘蛛爬行多個網站, 您的意思是多個啓動網址? – warvariuc