2012-08-29 55 views
1

抓取很多網站後,其中一些網站收到破解的編碼數據。我無法對他們做任何事情,我只需要檢測他們。對於像示例文本:Python檢測到破損的編碼

·ç¼wÃdª«|ʳf

ãà³n³¾å¢

我怎麼能認識這樣的文本?我使用任何語言,因此搜索非英文文本不是一種選擇。我能想到的唯一選擇是猜測語言模塊。

+2

['chardet'](http://pypi.python.org/pypi/chardet)可能也是您感興趣的。此外,請儘量尊重HTTP內容類型標頭和內容類型的標頭標籤,同時牢記它們也常常是錯誤的:-) – Cameron

+0

cchardet更好,速度更快 – twoface88

回答

2

NLTK它有一個函數需要一個字節字符串,並嘗試所有可用的編碼,這是否會達到您的目的?