0
我使用Readability Parser API從網頁中提取內容。它是確定當網頁是在拉丁字符集,但是當我提取西里爾文章,它具有下列結束:Python - 將unicode十六進制轉換爲字符串
<div>Ввоскресень</div>...etc
有趣的下面是一個網頁的標題是正確提取在西里爾文,但不是內容。我的嘗試是做到以下幾點,因爲它在這個SO answer建議:
content = unicodedata.normalize('NFKD', content).encode('ascii','ignore')
,但沒有奏效。你能告訴我在保存到數據庫之前是否有辦法轉換這個字符串?
請讓我知道,如果我的問題的標題正確解釋我需要什麼。謝謝。
非常感謝你,我真的很感激它!我只會補充說h.parser.unescape已被棄用(Python 3.5),所以我使用了html.unescape()。 – nickbusted 2014-10-27 01:19:58