0
我正在從Google文檔下載一個CSV文件,其中的字符如「保存爲\ xE2 \ x80 \ x9C」和「保存爲\ xE2 \ x80 \ x9D」。試圖找出字符集
我的問題是......那些被保存的字符集是什麼?我該如何去解決這個問題呢?
我正在從Google文檔下載一個CSV文件,其中的字符如「保存爲\ xE2 \ x80 \ x9C」和「保存爲\ xE2 \ x80 \ x9D」。試圖找出字符集
我的問題是......那些被保存的字符集是什麼?我該如何去解決這個問題呢?
它是在UTF-8中。你可以通過將它解碼爲UTF-8來進行判斷,並顯示正確的字符。
UTF-8也有一個獨特的和非常獨特的模式,只有3個字節的最高位集合形成一個有效的UTF-8序列足以說明是否有99%的置信度的UTF-8。即使2個字節的最高位設置爲有效的UTF-8序列,您也可以達到90%。
的情況下它不是UTF-8,並且是一些8位代碼頁,而不是,也不可能僅僅通過查看單獨字節告訴。如果沒有任何其他信息,你基本上必須通過以各種8位編碼進行解碼然後看看它是否正確。另一種可能性是使用一種自動通過編碼的算法,並查看它在任何語言中的結果是否有意義。
有了更多的信息,比如文件保存在什麼操作系統和區域設置中,你可以通過大量的交易來減少可能的編碼量。
http://en.wikipedia.org/wiki/Charset_detection有幾點提示 –