Xpath在scrapy中滿足條件時獲取數據

我正在使用scrapy來提取數據。有數以千計的產品，我刮問題是這些網頁上的數據是不一致的即。Xpath在scrapy中滿足條件時獲取數據

<table class="c999 fs12 mt10 f-bold"> 
             <tbody><tr> 
          <td width="16%">Type</td> 
          <td class="c222">Kurta</td> 
         </tr> 
                <tr> 
           <td>Fabric</td> 
           <td class="c222">Cotton</td> 
          </tr> 
                            <tr> 
           <td>Sleeves</td> 
           <td class="c222">3/4th Sleeves</td> 
          </tr> 
                            <tr> 
           <td>Neck</td> 
           <td class="c222">Mandarin Collar</td> 
          </tr> 
                            <tr> 
           <td>Wash Care</td> 
           <td class="c222">Gentle Wash</td> 
          </tr> 
                            <tr> 
           <td>Fit</td> 
           <td class="c222">Regular</td> 
          </tr> 
                            <tr> 
           <td>Length</td> 
           <td class="c222">Knee Length</td> 
          </tr> 
                                 <tr> 
           <td>Color</td> 
           <td class="c222">Brown</td> 
          </tr> 
                            <tr> 
           <td>Fabric Details</td> 
           <td class="c222">Cotton</td> 
          </tr> 
                                               <tr> 
          <td> 
           Style       </td> 
          <td class="c222"> Printed</td> 
         </tr> 
                            <tr> 
         <td> 
          SKU      </td> 
         <td id="qa-sku" class="c222"> SR227WA70ROJINDFAS</td> 
        </tr> 

                <tr> 
         <td></td> 

        </tr> 
          </tbody></table>

所以這些行不一致。有時「類型」處於第一位，有時候處於第二位。我寫了代碼循環訪問值並比較第一個td的值，如果它是「類型」獲取其相應的td的值，但它不工作這是代碼。

table_data = response.xpath('//*[@id="productInfo"]/table/tr') 
     for data in table_data: 
      name = data.xpath('td/text()').extract()

我該怎麼辦？

來源

2015-04-23 Sameer Shaikh

Plese提供此頁面的網址？或者你想從這個頁面得到什麼樣的輸出？ – Jithin

你可以來討論 –

您可以嘗試使用以下XPath：

name = data.xpath("td[position()=(count(../../tr/td[.='Type']/preceding-sibling::td)+1)]/text()").extract()

以上的XPath過濾器的位置<td>，只有<td>在等於<td>Type</td>位置的位置返回。通過計算<td>Type</td>的位置來計算它的前兄弟<td>加上一個的數量。

來源

2015-04-23 07:25:20 har07

不工作的傢伙:( –

試試這個，

In [29]: response.xpath('//table[@class="c999 fs12 mt10 f-bold"]/tr[contains(td/text(), "Type")]/td[contains(text(), "Type")]/following-sibling::td/text()|//table[@class="c999 fs12 mt10 f-bold"]/tr[contains(td/text(), "Type")]/td[contains(text(), "Type")]/preceding-sibling::td/text()').extract() 
Out[29]: [u'Kurta']

無論td是否Type後或Type之前到來，這將工作。

來源

2015-04-23 07:26:14 Jithin

如果你想獲得的td兄弟節點包含字符串「類型」不管這是什麼td的位置，你可以嘗試下面的XPath：

//td[contains(text(),'Type')]/following-sibling::td/text()

來源

2015-04-23 07:51:10

//table/tbody/tr/td[.="Fabric"]/../td[2]/text()

與上面的代碼你那裏

來源

2015-04-23 08:44:06

Xpath在scrapy中滿足條件時獲取數據

回答

相關問題