我在尋找到HTML轉換爲文本的最佳方式,利用從Python 2.7.x標準庫只模塊。 (即,BeautifulSoup
等)使用Python標準庫的HTML到文本的轉換隻
通過HTML到文本的轉換,我的意思是道德上相當於lynx -dump
。事實上,剛剛擺脫HTML標籤的智能,並且將所有的HTML實體ASCII(或UTF8編碼的Unicode),就足夠了。
沒有基於正則表達式-答案,請。 (的正則表達式是達不到的任務。)
謝謝!
我在尋找到HTML轉換爲文本的最佳方式,利用從Python 2.7.x標準庫只模塊。 (即,BeautifulSoup
等)使用Python標準庫的HTML到文本的轉換隻
通過HTML到文本的轉換,我的意思是道德上相當於lynx -dump
。事實上,剛剛擺脫HTML標籤的智能,並且將所有的HTML實體ASCII(或UTF8編碼的Unicode),就足夠了。
沒有基於正則表達式-答案,請。 (的正則表達式是達不到的任務。)
謝謝!
自2.2 Python有HTMLParser module。這不是最有效的,也最容易使用,但它的存在...
而且,如果你與適當的XHTML處理(或者你可以通過整潔通過它),你可以使用更好的ElementTree
from xml.etree.ElementTree import ElementTree
tree = ElementTree()
tree.parse("your_document.xhtml")
your_string = tree.tostring(method="text", encoding="utf-8")
我特別要求只需要在標準python分佈模塊的答案; html2text不在標準庫中 – kjo 2012-03-20 00:10:47