2013-07-03 54 views
0

用scrapy從表格中刮掉鏈接。 因爲TaBE的格式如下:用scrapy從表格中刮出鏈接

<tr> 
<td> <a href="url">Link name 1</a> and <a href="url">Link name 2</a> </td> 
<td> Item 2</td> 
<td align="center"> <a href="url">Link name 3</a> </td> 
<td> Item 4</td> 
<td> Item 5</td> 
</tr> 

我可以得到

rows = hxs.select('//tr') 
for row in rows: 
    print row.select('td/text()').extract() 

它僅僅返回文本值文本項。

[u' Item 2', u' Item 4', u' Item 5'] 

我想列出包含的網址鏈接名稱1,鏈接名稱2,鏈接名稱3

+0

我不t知道'scrapy',但我的gues會是'td/text()'提取應該不同於廢品鏈接=) – Vor

+0

td/text()僅適用於文本項目。 – bobsr

回答

0

你可以試試下面的XPath獲得想要的鏈接:

row.select('td/a/@href').extract()