Scrapy：斷點之間解析文本

我遇到一個HTML這樣的：Scrapy：斷點之間解析文本

<span itemprop="description"> 
    Colour: Blue 
    <br> 
    Fabric: Cotton Silk 
    <br> 
    Type Of Work: Printed 
    <br><br> 
    Product colour may slightly vary due to photographic lighting sources or your monitor settings. 
</span>

我想解析斷點之間的文本，並分別得到它們。理想的結果是一樣的東西：

["Colour: Blue", "Fabric: Cotton Silk", "Product colour may slightly vary due to photographic lighting sources or your monitor settings."]

我已經試過

response.xpath('//*[@itemprop="description"]/text()').extract()

但是這一起給了我整個文本在一個單一的字符串。

如何在「
」標籤周圍單獨獲取它。

來源

2015-12-26 Pravesh Jain

我試過你的代碼，它看起來像在工作。我做了一些調整，以清洗通過re()方法提取的數據：

>>> sel.xpath('//span[@itemprop="description"]/text()').re("\s*(.+)\s*") 
[u'Colour: Blue', u'Fabric: Cotton Silk', u'Type Of Work: Printed', u'Product colour may slightly vary due to photographic lighting sources or your monitor settings.']

是你需要什麼？

來源

2015-12-27 00:06:06

您已經取代了 '提取物（）' 法 '重（）'，它仍然給我相同的輸出： '[u'Colour：MulticolouredFabric：CrepeType作：PrintedSize：（Saree- 5.5米，女襯衫 - 0.80米）'， u由於攝影照明來源或您的顯示器設置，產品顏色可能會略有不同。圖片中顯示的縫合的服裝/襯衫僅用於介紹目的。']'。它仍然不分離顏色和結構。 –

可以請你分享一個pastebin或實際的URL中的整個HTML？ –

順便說一句，'re（）'調用只是應該修剪每個項目的內容。 –

Scrapy：斷點之間解析文本

回答

相關問題