2011-07-08 46 views
0

我想刮掉一些使用lxml嵌套窗體元素的html頁面。即使在這些頁面上的BeautifulSoup扼流器,我發現迄今爲止唯一能夠處理它們的解析器是MinimalSoup,它不知道哪些標記可以嵌套或不嵌套。如何使用lxml處理嵌套窗體標記

lxml是否有任何不關心嵌套窗體標籤的解析器? 還有其他建議嗎?如果我不得不我要繼續使用MinimalSoup。

+1

你能提供一個鏈接到你正在試圖抓取的頁面,並說出你遇到的問題是什麼數據? – mac

+0

頁面需要登錄,所以我無法提供鏈接 – cerberos

回答

1

lxml.etree.HTMLParser?這應該工作得相當好,對嗎?

import urllib2 
import lxml.etree as etree 
page = urllib2.urlopen(url) 
parser = etree.HTMLParser() 
tree = etree.parse(page,parser) 

,你有你的樹!

+0

它的工作原理,謝謝。 – cerberos

+0

您的歡迎,謝謝 –

相關問題