Scrapy noob here。我正在提取一個href'rel'attribute,如下所示:作爲Python字典返回XPATH響應
rel=""prodimage":"image_link","intermediatezoomimage":"image_link","fullimage":"image_link""
這可以看作屬性內的類似於結構的字典。
我的主要目標是獲得反對'全圖'的圖像url。因此,我想將響應存儲爲Python字典。 然而,XPath返回一個Unicode「名單」(不只是一個字符串,但名單!)有一個項目(全版本內容爲一個項目)
res = response.xpath('//*[@id="detail_product"]/div[1]/div[2]/ul/li[1]/a/@rel').extract()
print res
[u'"prodimage":"image_link", "intermediatezoomimage":"image_link", "fullimage":"image_link"']
type(res)
type 'list'
如何轉換「水庫」的內容轉換成就像一個Python字典(將列表項目分離出來,而不僅僅是一個整體項目),這樣我就可以在'rel'中從結構中獲取單個組件。
我希望我很清楚。謝謝!
僅針對字典中的XPath有意義的XML標籤的屬性值,你可以隨時抓取,使用RE。順便說一句,你正在因字典丟失項目的順序。 – gjha