我使用Python框架scrapy報廢的數據,這裏是我的蜘蛛代碼:如何使用特殊字符報廢數據?
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//h1')
links = hxs.select('//div[@class="pp-title"]')
#sites = hxs.select('//div[@id="yt-lockup-content"] ')
items = []
for site in links:
item = DmozItem()
item['title'] = site.select('a/h1/text()').extract()
item['link'] = site.select('a/@href').extract()
items.append(item)
return items
我收集items.json
數據與這種蜘蛛,我跑蜘蛛命令scrapy crawl dmoz -o items.json -t json
。數據被存儲在格式
[[{"link": ["http://www.ponudadana.hr/Planinarski-dom-Kalnik-2-dana-s-doruckom-za-dvoje-za-149kn-umjesto-300kn-7482_1"], "title": ["Planinarski dom Kalnik - 2 dana s doru\u010dkom za dvoje za 149kn umjesto 300kn!"]},
的問題是,像č,ž,š,đ,ž
特殊字符被存儲爲\u010
或類似的,例如參見以上doru\u010dkom
字,它應該是doručkom
。任何人都可以幫助我,我應該使用一些編碼格式?
您能否在第一行修復縮進錯誤。 – scriptmonster