將html實體轉換爲文本

我在我的HTML文件（這是一個右引號）中有，我想將它轉換爲文本（如果可能）。將html實體轉換爲文本

我試過使用HTMLParser和BeautifulSoup但沒有成功。

>>> h = HTMLParser.HTMLParser() 
>>> h.unescape("&#39;") 
u"'" 
>>> h.unescape("&#146;") 
u'\x92' # I was hoping for a right curly quote here.

我的目標很簡單：把html輸入並輸出所有的文本（沒有任何html代碼）。

2012-05-06 varunl

「右卷引號」不是ascii字符。 u'\x92'是代表它的unicode字符的python表示，而不是一些「html代碼」。

要在您的終端中正確顯示它，請使用print h.unescape("").encode('utf-8')（或任何終端的字符集）。

2012-05-06 19:23:22 ThiefMaster

回答