我在將HTML轉換爲普通文本時遇到問題。我正在閱讀一些頁面,其中包括像\ u00f3和\ u00f1等unicode標誌,我希望那些轉換爲正常的ASCII碼(不是ó和ñ,但是o和n)。Python源代碼到ASCII碼
我已經嘗試了很多Python,但沒有人知道一個簡單的解決方案?
我在將HTML轉換爲普通文本時遇到問題。我正在閱讀一些頁面,其中包括像\ u00f3和\ u00f1等unicode標誌,我希望那些轉換爲正常的ASCII碼(不是ó和ñ,但是o和n)。Python源代碼到ASCII碼
我已經嘗試了很多Python,但沒有人知道一個簡單的解決方案?
看看這太問題:What is the best way to remove accents in a Python unicode string?
兩個很好的圖書館作爲一種解決方案:
的Unicode(可以添加字符)和unicodedata(troncate)
找到解決方案: (1).decode (「unicode-escape」) (2)unicodedata.normalize('NF KD',webLine).encode('ascii','忽略') – Coryza
的可能重複[如何實現Unicode字符串匹配通過在Python中摺疊](http://stackoverflow.com/questions/1410308/how-to-implement-unicode-string-matching-by-folding-in-python) –