最佳Python模塊的HTML解析

我有一個網站更新（人們可以更新內容（文本），而不是網站的外觀），其中有HTML，JavaScript作爲前端語言& Python作爲後端/服務器端。最佳Python模塊的HTML解析

我發現，更新HTML是從前端非常困難的，因爲當我通過ele.innerHTML或$（ELE）的.html（）給出了根據瀏覽器的HTML改變（搶更新HTML該死IE）。

所以我決定更新從後端，即我的HTML，在Python

你認爲什麼是最好的Python模塊來解析HTML &搶信息？

我的要求是：
- 該模塊是ATLEAST在Python 2.5或更小（因爲我的虛擬主機提供商的）
- 我會被解析HTML &發現是類的所有HTML元素「更新」
- 對於類「更新」中的每個元素：提取的innerText（而不是HTML純文本/內容）

你會建議哪個Python模塊是最好的呢？
- HTMLParser.py
- htmllib.py
- 任何其他的Python 2.5兼容模塊的知道嗎？

2011-10-04 Jake M

我一直在使用LXML（http://lxml.de/lxmlhtml.html）。它對於正常大小的html文檔相對較快，並且支持使用BeautifulSoup。據我瞭解，BeautifulSoup不再支持，所以我已經使用lxml的所有新項目。

2011-10-04 23:32:50 David

美麗的湯現在似乎再次活躍，從2012年7月3日發佈。http://www.crummy.com/software/BeautifulSoup/ – jforberg

的確，這是個好消息！ – David

分析HTML我建議你看一看美麗的湯。它非常強大，並且可以處理一些混亂的標記。

檢查了這一點，看看它是否可以幫助你！希望它。

2011-10-04 23:27:18 pcalcao

作爲一名負責人，BeautifulSoup不再支持它的作者，而且核心依賴項SQMLParser已被棄用於Python3。 http://www.crummy.com/software/BeautifulSoup/3.1-problems.html – David

我的壞，不知道的是，我會起來在這種情況下LXML選項。 – pcalcao

這真的很不幸，因爲BeautifulSoup仍然是一個偉大的工具。 – David

回答