2013-03-17 96 views
4

我想抓取使用Scrapy Craigslist分類來提取出售物品。Scrapy Python Craigslist刮刀

我能夠提取日期,帖子標題和帖子網址但我無法解壓縮價格

出於某種原因,當前的代碼中提取價格所有,但是當我刪除//價格區間前漲了價字段返回爲空。

有人可以查看下面的代碼並幫助我嗎?

from scrapy.spider import BaseSpider 
    from scrapy.selector import HtmlXPathSelector 
    from craigslist_sample.items import CraigslistSampleItem 

    class MySpider(BaseSpider): 
     name = "craig" 
     allowed_domains = ["craigslist.org"] 
     start_urls = ["http://longisland.craigslist.org/search/sss?sort=date&query=raptor%20660&srchType=T"] 

def parse(self, response): 
    hxs = HtmlXPathSelector(response) 
    titles = hxs.select("//p") 
    items = [] 
    for titles in titles: 
     item = CraigslistSampleItem() 
     item['date'] = titles.select('span[@class="itemdate"]/text()').extract() 
     item ["title"] = titles.select("a/text()").extract() 
     item ["link"] = titles.select("a/@href").extract() 
     item ['price'] = titles.select('//span[@class="itempp"]/text()').extract() 
     items.append(item) 
    return items 
+0

您好,我正在構建一個類似的腳本,我看到人們使用craigslist_sample.items,但我不知道如何獲得該軟件包? – keithp 2014-12-22 16:23:47

回答

2

itempp似乎是另一元件時,itempnr的內部。如果您要將//span[@class="itempp"]/text()更改爲span[@class="itempnr"]/span[@class="itempp"]/text(),也許它會起作用。

+1

它的工作。謝謝!!!!!! – 2013-03-17 01:36:14

+0

它仍然沒有提供? – 2013-03-17 01:38:51

+0

它只是在頁面下半部的附近結果上沒有提供任何內容。 – 2013-03-17 01:40:18