在使用scrapy解析過程中,我發現這個輸出蟒scrapy如何刪除額外解析字符
[u'TARTARINI AUTO SPA(CENTRALINO SELEZIONE的Passante)'],「[u'VCBONAZZI \ xa043 ',u'40013',u'CASTEL MAGGIORE']「,[u'0516322411'],[u'[email protected]'],[u'CARS(LPG INSTALLERS)'],[u'track.aspx ?ID = 0 & URL = HTTP://www.tartariniauto.it']
正如你看到有喜歡的
一些額外的字符U」 \ xa043「'[]
,我不想要的。 如何刪除這些? 此外還有5個項目在這個字符串中。我希望字符串是這樣的:
項目1,項目2,項目3,ITEM4,ITEM5
這裏是我的pipelines.py代碼
from scrapy.contrib.loader import ItemLoader
from scrapy.contrib.loader.processor import TakeFirst, MapCompose, Join
import re
import json
import csv
class InfobelPipeline(object):
def __init__(self):
self.file = csv.writer(open('items.csv','wb'))
def process_item(self, item, spider):
name = item['name']
address = item['address']
phone = item['phone']
email = item['email']
category = item['category']
website = item['website']
self.file.writerow((name,address,phone,email,category,website))
return item
感謝
只是迭代你的字符串,並刪除A)當你'str()'或B)每個字符超過某個序數時拋出錯誤的每個字符。 –
@JoelCornett這是非常pythonic – Edwardr
我擔心你問如何刪除像方括號和引號的東西?也就是說,你問的是如何從包裹列表中刪除字符串,或者你已經將它們輸出到外部文件並重新讀取它們?無論如何,所有這些工作都應該在您的物品加載器中完成,而不是在我的意見中。 – Edwardr