試圖找出字符集

我正在從Google文檔下載一個CSV文件，其中的字符如「保存爲\ xE2 \ x80 \ x9C」和「保存爲\ xE2 \ x80 \ x9D」。試圖找出字符集

我的問題是......那些被保存的字符集是什麼？我該如何去解決這個問題呢？

2012-12-13 neubert

http://en.wikipedia.org/wiki/Charset_detection有幾點提示 –

它是在UTF-8中。你可以通過將它解碼爲UTF-8來進行判斷，並顯示正確的字符。

UTF-8也有一個獨特的和非常獨特的模式，只有3個字節的最高位集合形成一個有效的UTF-8序列足以說明是否有99％的置信度的UTF-8。即使2個字節的最高位設置爲有效的UTF-8序列，您也可以達到90％。

的情況下它不是UTF-8，並且是一些8位代碼頁，而不是，也不可能僅僅通過查看單獨字節告訴。如果沒有任何其他信息，你基本上必須通過以各種8位編碼進行解碼然後看看它是否正確。另一種可能性是使用一種自動通過編碼的算法，並查看它在任何語言中的結果是否有意義。

有了更多的信息，比如文件保存在什麼操作系統和區域設置中，你可以通過大量的交易來減少可能的編碼量。

2012-12-13 21:26:01 Esailija

回答