scrapy xpath幫助需要

我是xpath的新手，請耐心等待。目前，我正在尋找使用scrapy刮一些內容了一些網頁，內容看起來是這樣的：scrapy xpath幫助需要

 <td colspan="3" valign="top" class="regular">Landsize: 84,000sq with an extensive shoreline 750m<br /> 
<br /> 
Call Or Email for more info<br /> 

. Full-length Olympicpool,children pool,jacuzzi<br /> 
\' Landscapesdkey bridges<br /> 
. 2 tennis courts<br /> 
. water features True seafront development with iconic design by architect Daniel Libeskind<br /> 
lconic residential, located less than\' 150 metres from the shoreline<br /> 
<br /> 
opposite the future integrated resort on sentosa Island.<br /> 

A part of keppel Bay world calss water front precinct with luxury homes.<br /> 
<br /> 
Call or email for more info </td>

具體來說，我用以下hxs.select('//tr[contains(td,"Description")]/following-sibling::tr[1]/td/text()').extract()

然而，這樣做會由於內容被<br>分隔，因此將結果項目分成列表。如果我從xpath中排除text()，則<td>元素將包含在所得字符串中，這是不可取的。

在xpath中有沒有一種方法可以確保我的結果字符串是上面顯示的但沒有td標籤的所有內容？我希望我不需要手動回加列表<br/>

來源

2011-11-10 goh

從您的評論來看，Evan的正確答案是，您想跳過NL。

在這種情況下，嘗試：

normalize-space(//tr[contains(td,"Description")]/following-sibling::tr[1]/td)

注意：

如果參數normalize-space()選擇多個節點，此功能將只返回處理結果第一選定節點。
刪除所有前導和尾隨空格字符。所有相鄰空白字符的中間組被替換爲單個空格字符。

來源

2011-11-11 05:58:19

其實我只是想留住
，但希望刪除。 – goh

@iws：那麼你想要的是不可能實現評估一個XPath表達式 - XPath是一個* query *語言的XML - 因此它只是*選擇*節點集並且從不刪除或修改節點。使用XPath，您可以只獲取元素的字符串值（根本不包含後代節點），或者如果您想獲取其子節點，則這些元素中的元素將具有其所有子元素/子元素。 –

嘗試在調用string（）時包裝表達式，它返回節點的字符串值，它是所有字符串值的串聯節點的後代文本節點。

string(//tr[contains(td,"Description")]/following-sibling::tr[1]/td)

來源

2011-11-10 18:55:12

試圖字符串（），但它轉變成
\ r \ n – goh

您可能會發現HTML Agility Pack用於解析網頁。

來源

2011-11-10 19:17:13

scrapy xpath幫助需要

回答

相關問題