如何使用lxml處理嵌套窗體標記

我想刮掉一些使用lxml嵌套窗體元素的html頁面。即使在這些頁面上的BeautifulSoup扼流器，我發現迄今爲止唯一能夠處理它們的解析器是MinimalSoup，它不知道哪些標記可以嵌套或不嵌套。如何使用lxml處理嵌套窗體標記

lxml是否有任何不關心嵌套窗體標籤的解析器？還有其他建議嗎？如果我不得不我要繼續使用MinimalSoup。

2011-07-08 cerberos

你能提供一個鏈接到你正在試圖抓取的頁面，並說出你遇到的問題是什麼數據？ – mac

頁面需要登錄，所以我無法提供鏈接 – cerberos

lxml.etree.HTMLParser？這應該工作得相當好，對嗎？

import urllib2 
import lxml.etree as etree 
page = urllib2.urlopen(url) 
parser = etree.HTMLParser() 
tree = etree.parse(page,parser)

，你有你的樹！

2011-08-01 21:54:06

它的工作原理，謝謝。 – cerberos

您的歡迎，謝謝 –

回答