2012-03-19 53 views
1

我在尋找到HTML轉換爲文本的最佳方式,利用從Python 2.7.x標準庫只模塊。 (即,BeautifulSoup等)使用Python標準庫的HTML到文本的轉換隻

通過HTML到文本的轉換,我的意思是道德上相當於lynx -dump。事實上,剛剛擺脫HTML標籤的智能,並且將所有的HTML實體ASCII(或UTF8編碼的Unicode),就足夠了。

沒有基於正則表達式-答案,請。 (的正則表達式是達不到的任務。)

謝謝!

回答

5

自2.2 Python有HTMLParser module。這不是最有效的,也最容易使用,但它的存在...

而且,如果你與適當的XHTML處理(或者你可以通過整潔通過它),你可以使用更好的ElementTree

from xml.etree.ElementTree import ElementTree 
tree = ElementTree() 
tree.parse("your_document.xhtml") 
your_string = tree.tostring(method="text", encoding="utf-8") 
-1

我也建議你應該看一看html2text
也看看另一個thread

+0

我特別要求只需要在標準python分佈模塊的答案; html2text不在標準庫中 – kjo 2012-03-20 00:10:47