0
我想使用scrapy從此表中提取一些書鏈接。Scrapy:表中鏈接的xpath
表看起來像這樣:
<table id="table_text">
<tbody>
<tr >
<td>15/02/2014</td>
<td><a href="/book_1.html">Book 1</a></td>
<td>The Author</td>
<td> <a href="/tag1">tag1</a> <a href="/tag2">tag2</a> </td>
<td>Genre</td>
</tr>
和所提取的鏈路應該是:
/book_1.html
,我使用的是
def parse(self, response):
hxs = Selector(response)
hxs = Selector(response)
links = hxs.xpath('//table[@id="table_text"]//tr//td[2]//a//@href')
但print links
選擇器顯示一個空輸出:[]
我想知道我用的xpath
有什麼問題?
一個完整的重現器(也就是說,我們可以運行自己重現的東西)會更有幫助。該頁面是否公開? –
順便說一句,你使用的是比你需要更多的''''。其中許多隻會是單跳。 –
您可以用//表格[@ id =「table_text」] // tr/td [2]/a/@ href'進行簡化,但是您已經描述了XPath正在運行的內容。你能給更多的上下文嗎?更多HTML?你是否在'response'中檢查了body * *實際上是你認爲的那個(瀏覽器可以顯示與scrapy檢索的不同的HTML,比如JS的例子)? – Robin