我正在Scrapy中編寫我的第一個蜘蛛並嘗試關注文檔。我已經實現了ItemLoaders。蜘蛛提取數據,但數據包含許多行返回。我嘗試了很多方法來刪除它們,但似乎沒有任何工作。 replace_escape_chars工具應該可以工作,但我無法弄清楚如何將它與ItemLoader
一起使用。還有一些人使用(unicode.strip),但再次,我似乎無法得到它的工作。有些人試圖在items.py和蜘蛛中的其他人中使用它們。我如何清理這些行返回的數據(\ r \ n)?我的items.py文件只包含項目名稱和字段()。蜘蛛代碼如下:如何刪除Scrapy蜘蛛數據中的空白區域
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.loader import XPathItemLoader
from scrapy.utils.markup import replace_escape_chars
from ccpstore.items import Greenhouse
class GreenhouseSpider(BaseSpider):
name = "greenhouse"
allowed_domains = ["domain.com"]
start_urls = [
"http://www.domain.com",
]
def parse(self, response):
items = []
l = XPathItemLoader(item=Greenhouse(), response=response)
l.add_xpath('name', '//div[@class="product_name"]')
l.add_xpath('title', '//h1')
l.add_xpath('usage', '//li[@id="ctl18_ctl00_rptProductAttributes_ctl00_liItem"]')
l.add_xpath('repeat', '//li[@id="ctl18_ctl00_rptProductAttributes_ctl02_liItem"]')
l.add_xpath('direction', '//li[@id="ctl18_ctl00_rptProductAttributes_ctl03_liItem"]')
items.append(l.load_item())
return items
見[此](https://github.com/econchick/new-coder/blob/master/scrape/living_social/living_social/spiders/livingsocial_spider.py)樣品蜘蛛代碼。注意'parse'方法中如何使用處理器。希望有所幫助。 – alecxe