使用Python標準庫的HTML到文本的轉換隻

我在尋找到HTML轉換爲文本的最佳方式，利用從Python 2.7.x標準庫只模塊。（即，BeautifulSoup等）使用Python標準庫的HTML到文本的轉換隻

通過HTML到文本的轉換，我的意思是道德上相當於lynx -dump。事實上，剛剛擺脫HTML標籤的智能，並且將所有的HTML實體ASCII（或UTF8編碼的Unicode），就足夠了。

沒有基於正則表達式-答案，請。（的正則表達式是達不到的任務。）

謝謝！

2012-03-19 kjo

自2.2 Python有HTMLParser module。這不是最有效的，也最容易使用，但它的存在...

而且，如果你與適當的XHTML處理（或者你可以通過整潔通過它），你可以使用更好的ElementTree

from xml.etree.ElementTree import ElementTree 
tree = ElementTree() 
tree.parse("your_document.xhtml") 
your_string = tree.tostring(method="text", encoding="utf-8")

來源

2012-03-19 15:32:26 vartec

-1

我也建議你應該看一看html2text。
也看看另一個thread

來源

2012-03-19 21:05:21 kiran

我特別要求只需要在標準python分佈模塊的答案; html2text不在標準庫中 – kjo 2012-03-20 00:10:47

使用Python標準庫的HTML到文本的轉換隻

回答

相關問題