我有了這個XPath查詢:如何使用lxml,XPath和Python從網頁中提取鏈接?
/html/body//tbody/tr[*]/td[*]/a[@title]/@href
它提取所有具有title屬性的鏈接 - 並給出FireFox's Xpath checker add-on的href
。
但是,我似乎無法與lxml
一起使用它。
from lxml import etree
parsedPage = etree.HTML(page) # Create parse tree from valid page.
# Xpath query
hyperlinks = parsedPage.xpath("/html/body//tbody/tr[*]/td[*]/a[@title]/@href")
for x in hyperlinks:
print x # Print links in <a> tags, containing the title attribute
這產生從lxml
(空列表)沒有結果。
如何在Python下抓取href
包含屬性標題的href
文本(鏈接)lxml
?
您正在解析的文檔是否具有名稱空間(xmlns)集? – 2010-01-23 12:56:19