我嘗試提取工作從本網站提供的信息,這是我的代碼驗證scrapy項目代碼
from scrapy.spider import Spider
from scrapy.selector import Selector
from tutorial.items import DmozItem
class DmozSpider(Spider):
name = "myspider"
allowed_domains =["tanitjobs.com/"]
start_urls =["http://tanitjobs.com/search-results-jobs/"]
def parse(self, response):
sel = Selector(response)
sites = sel.xpath('//div[@class="offre"]/div[@class="detail"]')
items = []
item = DmozItem()
for site in sites:
item['title'] = site.xpath('a/text()').extract()
item['link'] = site.xpath('a/@href').extract()
item['desc'] = site.xpath('div[@class="descriptionjob"]/text()').extract()
items.append(item)
return items
但結果是不正確的(空項列表):
{'desc': [],
'link': [u'lien'],
'title': []}
和許多塊像這樣...
蜘蛛運行正常我,期待'site.xpath( 'DIV [@類= 「descriptionjob」] /文()')',我建議你使用'site.xpath(」 .// div [@ class =「descriptionjob」]/text()')' –
在我的情況下,它返回相同的項目,向我發送驗證PLZ的代碼; [email protected] – Athari
我第一次錯過了它(我只是在我的測試中打印項目)。問題是與物品實例化,這應該在循環中完成 –