我想刮掉一些使用lxml嵌套窗體元素的html頁面。即使在這些頁面上的BeautifulSoup扼流器,我發現迄今爲止唯一能夠處理它們的解析器是MinimalSoup,它不知道哪些標記可以嵌套或不嵌套。如何使用lxml處理嵌套窗體標記
lxml是否有任何不關心嵌套窗體標籤的解析器? 還有其他建議嗎?如果我不得不我要繼續使用MinimalSoup。
我想刮掉一些使用lxml嵌套窗體元素的html頁面。即使在這些頁面上的BeautifulSoup扼流器,我發現迄今爲止唯一能夠處理它們的解析器是MinimalSoup,它不知道哪些標記可以嵌套或不嵌套。如何使用lxml處理嵌套窗體標記
lxml是否有任何不關心嵌套窗體標籤的解析器? 還有其他建議嗎?如果我不得不我要繼續使用MinimalSoup。
lxml.etree.HTMLParser?這應該工作得相當好,對嗎?
import urllib2
import lxml.etree as etree
page = urllib2.urlopen(url)
parser = etree.HTMLParser()
tree = etree.parse(page,parser)
,你有你的樹!
它的工作原理,謝謝。 – cerberos
您的歡迎,謝謝 –
你能提供一個鏈接到你正在試圖抓取的頁面,並說出你遇到的問題是什麼數據? – mac
頁面需要登錄,所以我無法提供鏈接 – cerberos