我成功地使用我的技術獲取了網址,但要指出的是,我需要稍微更改網址:「http://www.example.com/static/p/no-name-0330-227404-1.jpg」。凡在img標籤我得到這個鏈接: 「http://www.example.com/static/p/no-name-0330-227404-1-product.jpg」從網址中排除某些關鍵字
HTML代碼:
<div class="swiper-wrapper"><img data-error-placeholder="PlaceholderPDP.jpg" class="swiper-lazy swiper-lazy-loaded" src="http://www.example.com/static/p/no-name-0330-227404-1-product.jpg"></div>
Python代碼:
imagesList = []
imagesList.append([re.findall(re.compile(u'http.*?\.jpg'), etree.tostring(imagesList).decode("utf-8")) for imagesList in productTree.xpath('//*[@class="swiper-wrapper"]/img')])
print (imagesList)
輸出:
[['http://www.example.com/static/p/no-name-8143-225244-1-product.jpg']]
注:我需要從網址中刪除「-product」,我不知道爲什麼這個網址在兩個方括號內。
你的解決方案是正確的,但我如何把它放在我的新的格式裏,請看到新的Python代碼。 – Jok3r
我沒有完整的腳本,所以我很難幫助你。您可以嘗試通過移除image.append API和嵌套方括號[]來查看它爲您提供的內容,從而將該內容分解爲兩部分。就像是。 對於productList中的imagesList('// * [@ class =「swiper-wrapper」]/img') –
如果它給你你發佈的字符串,那麼注入我的代碼來處理字符串,然後將處理後的url附加到imageList中。 –