提取HREF值使用XPath Python的2.7

python
xpath

2013-03-07 108 views 4 likes

<a href="some content">Click here</a>

我如何可以提取「某些內容」和「點擊我」使用XPath的蟒蛇？

到目前爲止，我有以下的（僅提取「某些內容」從HREF結果）：

import lxml.etree as LE 
import requests 

r = requests.get("http://localhost") 
html = r.text 
root = LH.fromstring(html) 
print root.xpath('//a/@href')

感謝adavance。

來源

2013-03-07 Thales Pereira

你有使用XPath？正則表達式應該適用於HTML。 – b10hazard 2013-03-07 13:14:29

我曾經與正則表達式做...但後來我在膝蓋上的箭頭。拋開笑話。正則表達式不推薦用於解析html/xml結果:) – 2013-03-07 13:25:19

啊，我明白了。我不熟悉xpath。也許我會在下次需要解析html時嘗試一下。 – b10hazard 2013-03-07 13:37:53

回答

您只能選擇使用XPath一個或另一個，但你可以選擇所有<a>元素，然後摘掉href屬性和文本內容是這樣的：

for elt in root.xpath('//a'): 
    print(elt.attrib['href'], elt.text_content())

來源

2013-03-07 13:15:29 unutbu

再次感謝你=） – 2013-03-07 13:27:40

相關問題

11. 提取使用XPath
12. xpath查詢從href中提取url
13. Python 3.4：帶XPATH的href
14. 無法使用xpath從XDocument提取值
15. 使用xpath快速提取值
16. 使用xpath提取屬性值
17. 使用XPath提取信息
18. xpath無法獲取錨點href值
19. Python：用於提取內容的lxml xpath
20. 提取物「HREF」使用硒
21. 提取值使用python
22. 用Java中的撇號提取href值
23. 使用XPath提取由XPath查詢
24. 提取所有href值
25. 提取使用XPath豬
26. 使用Xpath提取屬性
27. 提取內容：使用XPath
28. 如何提取使用XPath
29. 在xpath中使用unicode作爲謂詞，使用lxml和python 2.7
30. 使用Python 2.7