2011-10-16 94 views
2

我是lxml的新手,想要從給定的url中提取<p>PARAGRAPHS</p><li>PARAGRAPHS</li>並將它們用於進一步的步驟。使用lxml解析HTML中的段落

我跟着一個例子從post,並試圖與沒有運氣以下代碼:

html = lxml.html('http://www.google.com/intl/en/about/corporate/index.html') 
url = 'http://www.google.com/intl/en/about/corporate/index.html' 
print html.parse.xpath('//p/text()') 

我試圖尋找到的例子lxml.html,但使用的URL沒有發現任何一例。

你能給我提示我應該使用什麼方法嗎?謝謝。

回答

7
import lxml.html 

htmltree = lxml.html.parse('http://www.google.com/intl/en/about/corporate/index.html') 

print htmltree.xpath('//p/text()')