2011-10-04 40 views
5

我有一個網站更新(人們可以更新內容(文本),而不是網站的外觀),其中有HTML,JavaScript作爲前端語言& Python作爲後端/服務器端。最佳Python模塊的HTML解析

我發現,更新HTML是從前端非常困難的,因爲當我通過ele.innerHTML$(ELE)的.html()給出了根據瀏覽器的HTML改變(搶更新HTML該死IE)。

所以我決定更新從後端,即我的HTML,在Python

你認爲什麼是最好的Python模塊來解析HTML &搶信息?

我的要求是:
- 該模塊是ATLEAST在Python 2.5或更小(因爲我的虛擬主機提供商的)
- 我會被解析HTML &發現是類的所有HTML元素「更新」
- 對於類「更新」中的每個元素:提取的innerText(而不是HTML純文本/內容)

你會建議哪個Python模塊是最好的呢?
- HTMLParser.py
- htmllib.py
- 任何其他的Python 2.5兼容模塊的知道嗎?

回答

5

我一直在使用LXML(http://lxml.de/lxmlhtml.html)。它對於正常大小的html文檔相對較快,並且支持使用BeautifulSoup。據我瞭解,BeautifulSoup不再支持,所以我已經使用lxml的所有新項目。

+4

美麗的湯現在似乎再次活躍,從2012年7月3日發佈。http://www.crummy.com/software/BeautifulSoup/ – jforberg

+0

的確,這是個好消息! – David

8

分析HTML我建議你看一看美麗的湯。它非常強大,並且可以處理一些混亂的標記。

http://www.crummy.com/software/BeautifulSoup/

檢查了這一點,看看它是否可以幫助你!希望它。

+0

作爲一名負責人,BeautifulSoup不再支持它的作者,而且核心依賴項SQMLParser已被棄用於Python3。 http://www.crummy.com/software/BeautifulSoup/3.1-problems.html – David

+0

我的壞,不知道的是,我會起來在這種情況下LXML選項。 – pcalcao

+0

這真的很不幸,因爲BeautifulSoup仍然是一個偉大的工具。 – David