抓取很多網站後,其中一些網站收到破解的編碼數據。我無法對他們做任何事情,我只需要檢測他們。對於像示例文本:Python檢測到破損的編碼
·ç¼wÃdª«|ʳf
或
ãà³n³¾å¢
我怎麼能認識這樣的文本?我使用任何語言,因此搜索非英文文本不是一種選擇。我能想到的唯一選擇是猜測語言模塊。
抓取很多網站後,其中一些網站收到破解的編碼數據。我無法對他們做任何事情,我只需要檢測他們。對於像示例文本:Python檢測到破損的編碼
·ç¼wÃdª«|ʳf
或
ãà³n³¾å¢
我怎麼能認識這樣的文本?我使用任何語言,因此搜索非英文文本不是一種選擇。我能想到的唯一選擇是猜測語言模塊。
有NLTK它有一個函數需要一個字節字符串,並嘗試所有可用的編碼,這是否會達到您的目的?
看看https://github.com/LuminosoInsight/python-ftfy
如果我理解正確的話,它會嘗試「修復」不正確編碼/解碼的文本。
['chardet'](http://pypi.python.org/pypi/chardet)可能也是您感興趣的。此外,請儘量尊重HTTP內容類型標頭和內容類型的標頭標籤,同時牢記它們也常常是錯誤的:-) – Cameron
cchardet更好,速度更快 – twoface88