注意:自從給出一些早期答案以來,問題已更新。這仍然是同樣的問題,只是希望更清楚。需要幫助編寫xpath字符串以匹配多個(但不是全部)表格單元格
我試圖讓一個網站刮板正常工作,我有問題想出一些合適的xpath字符串的一些表格單元格。
<tbody>
<tr>
<td class="Label" width="20%" valign="top">Uninteresting section</td>
<td class="Data"> I don't care about this</td>
</tr>
<tr>
<td></td>
<td class="Data"> I don't care about this</td>
</tr>
<tr>
<td class="Label" width="20%" valign="top">Interesting section</td>
<td class="Data"> I want this-1</td>
</tr>
<tr>
<td></td>
<td class="Data"> I want this-2</td>
</tr>
<tr>
<td></td>
<td class="Data"> I want this-n</td>
</tr>
<tr>
<td class="Label" width="20%" valign="top">Uninteresting section</td>
<td class="Data"> I don't care about this</td>
</tr>
<tr>
<td></td>
<td class="Data"> I don't care about this</td>
</tr>
</tbody>
我想要感興趣的部分中的所有數據字段的內容。 可以有任意數量的這些。我不關心代碼中的其他內容,但我需要所有這些。
在上面的例子: 我想這-1 我想這-2 我想這正
如果是相關的,我使用xml.dom.minidom和PY-DOM-的XPath與Python 2.7。
// tr [@ class =「Entry」] // tr ...你正在尋找嵌套在另一個tr中的tr? – 2012-07-25 14:06:35
有一個桌子裏面有更多的桌子,我留下了一些結構,因爲我已經可以匹配它了。我的問題是我上面發佈的部分,我不知道如何獲取此特定部分中的數據單元的所有內容,而無需從其他部分獲取它們。標籤單元格的內容是使各部分在匹配方面不同的唯一內容,所有部分的結構都是相同的。 – LJNielsenDk 2012-07-25 14:55:22