2011-12-12 110 views
0

我正試圖在Python中解析格式錯誤的XHTML頁面。我只想從它那裏得到一些相同類型的標籤,但似乎不可能。普通的XHTML解析器不喜歡格式錯誤,並且由於其代碼中的語法錯誤,BeautifulSoup將不起作用。解析格式錯誤的XHTML並獲取相同類型的幾個標籤的內容的最佳方式是什麼?使用Python 3.2解析XHTML

回答

0

感謝您的幫助! 「不幸的是」我通過使用this解析器和設置html.parser.HTMLParser(strict=False)來解決它。這使得它讀得格式不正確的XHTML相當好。

+0

請記住,strict = False是默認值,它自Python 3.3以來已被棄用,它將在Python 3.5中被刪除。 –

0

您可以嘗試pyquery

我不知道有多少畸形的XHTML是,但它是值得一試。

2

「正常」解析器? lxml通常可以處理格式錯誤的html,儘管它非常「正常」。 :-)