與scrapy蜘蛛一起工作,它的價格拉錯了輸出。在Scrapy Xpath的逃脫美元符號
HTML:
<span style="" class="b-product_price-standard b-product_price-standard--line_through">$350</span>
的Xpath:
['price'] = sel.xpath('normalize-space(div/main/div[4]/div[3]/div/div[1]/h1[2]/div/span[1]/text())').extract()
結果:
'price': [u'\u20ac300]
這似乎是 「$」 的價格是造成問題。我一直在挖,我似乎無法找到我認爲會是一個普遍問題的答案,這讓我想到它可能更多地是我缺少的。
任何幫助,非常感謝!
結果是正確的(並且以歐元爲單位),它只是一種用unicode代碼點表示字符超出ascii範圍的方法。嘗試'打印(u'\ u20ac300')'。按照此鏈接:http://www.utf8-chartable.de/unicode-utf8-table.pl?start=8352&number=1024 –
@CasimiretHippolyte謝謝!甚至沒有想到這一點。 –