我遇到了一個有點複雜的XPath問題。考慮的網頁(我使用Imgur和更換一些文字)的一部分,此HTML:XPath選擇圖像鏈接 - 僅當img src的父級href鏈接存在時,否則選擇img src鏈接
<a href="//i.imgur.com/ahreflink.jpg" class="zoom">
<img class="post-image-placeholder" src="//i.imgur.com/imgsrclink.jpg">
</img>
</a>
我首先要搜索的文件中,並找到其對應的src
ES所有img
標籤。接下來,我要檢查img src
鏈接是否包含圖像文件擴展名(.jpeg,.jpg,.gif,.png)。如果它不包含圖片擴展名,請不要抓住它。在這種情況下,它有一個圖像擴展名。現在我們要弄清楚我們想要抓取哪個鏈接。由於parent href
存在,我們應該抓住相應的鏈接。
所需的結果://i.imgur.com/ahreflink.jpg
但是,現在讓我們假設parent href
不存在:
<a name="missing! oh no!">
<img class="post-image-placeholder" src="//i.imgur.com/imgsrclink.jpg">
</img>
</a>
所需的結果://i.imgur.com/imgsrclink.jpg
如何去構建這個XPath?如果它有幫助,我也使用Python(Scrapy)和XPath。所以如果問題需要分離出來,Python也可以使用。
你到目前爲止嘗試過什麼嗎? –
我只得到了檢查鏈接圖像擴展的部分,但卻對如何選擇要抓取的鏈接感到困惑。 – dtgee
您是否想完全使用XPath來獲得結果,或者您是否使用了腳本語言,您可以使用某些邏輯來實現? –