我試圖從網站中獲取帶有特殊字符的文本,並且Python返回的字符串因此充滿了「\ x」字符。 但是,似乎編碼是錯誤的。 例如,讀取時:Python獲取UTF-8字符的錯誤編碼?
根據th =urllib2.urlopen('http://norse.ulver.com/dct/zoega/th.html')
在網頁中應包含字母「TH」,其中有字節數C39E和Unicode代碼DE的<h1>
水平線上http://www.fileformat.info/info/charset/UTF-8/list.htm
相反,我得到
'<h1>\xc3\x9e</h1>'
在兩個字節數分裂,使寫入行到一個文件時,然後用Unicode編碼打開它,我得到「AZ」,而不是「TH」。
如何強制Python對\uC39E
或\xde
而不是\xc3\x9e
這樣的字符進行編碼?
聲音就像一切正在工作,但它會混淆。別擔心,這是相當普遍的。不要使用拉丁語-1或代碼頁1251工具來檢查UTF-8(或者直接前往;但瞭解您正在查看的內容)。 – tripleee
術語更正:0xC3 0x9E是[U + 00DE](http://www.fileformat.info/info/unicode/char/00de/index.htm)的UTF-8 *編碼*。 – tripleee