2012-05-06 131 views
0

我在我的HTML文件(這是一個右引號)中有’,我想將它轉換爲文本(如果可能)。將html實體轉換爲文本

我試過使用HTMLParser和BeautifulSoup但沒有成功。

>>> h = HTMLParser.HTMLParser() 
>>> h.unescape("'") 
u"'" 
>>> h.unescape("’") 
u'\x92' # I was hoping for a right curly quote here. 

我的目標很簡單:把html輸入並輸出所有的文本(沒有任何html代碼)。

回答

2

「右卷引號」不是ascii字符。 u'\x92'是代表它的unicode字符的python表示,而不是一些「html代碼」。

要在您的終端中正確顯示它,請使用print h.unescape("’").encode('utf-8')(或任何終端的字符集)。