2013-05-27 59 views
5

我有一個接受CSV文件的網頁。這些文件可能在各種地方創建。 (我認爲)沒有辦法在CSV文件中指定編碼 - 所以我不能可靠地將它們全部視爲utf-8或任何其他編碼。是否有可能「嗅探」字符編碼?

有沒有一種方法來智能地猜測我正在獲取的CSV編碼?我正在使用Python,但也願意使用語言不可知方法。

+2

有辦法,只要你能因錯誤檢測而生活,因爲沒有100%確定的方式來猜測編碼。 –

+0

[有沒有一個Python庫函數試圖猜測某些字節的字符編碼?](http://stackoverflow.com/questions/269060/is-there-a-python-library-function-which -attempts-to-guess-the-character-encodin) –

+0

如果你知道這些文件的語言,你可以很可靠地檢測到編碼 - 對嗎? – georg

回答

6

有通過查看只有文件本身來確定文件的編碼不正確的方法,但你可以使用一些基於啓發式的解決方案,例如:chardet