下面是我的解碼

private Charset detectCharset(File file, Charset charset) 
{ 
    try 
    { 
     BufferedInputStream input = new BufferedInputStream(new FileInputStream(file)); 

     CharsetDecoder decoder = charset.newDecoder(); 
     decoder.reset(); 

     byte[] buffer = new byte[BUFFER_SIZE]; 
     boolean identified = false; 

     while ((input.read(buffer) != -1) && (!identified)) 
     { 
      identified = identify(buffer, decoder); 
     } 
     input.close(); 

     if (!identified) 
     { 
      charset = null; 
     } 

     return charset; 
    } 
    catch (Exception e) 
    { 
     return null; 
    } 
} 

private boolean identify(byte[] bytes, CharsetDecoder decoder) 
{ 
    boolean isIdentifies = true; 
    try 
    { 
     decoder.decode(ByteBuffer.wrap(bytes)); 
    } 
    catch (CharacterCodingException e) 
    { 
     isIdentifies = false; 
    } 
    return isIdentifies; 
}

來源

2014-01-13 Kanti

你的方法識別字符編碼代碼是有缺陷的，我想。如果緩衝區內容根本無法解碼，decode方法只會拋出CharacterCodingException。在字節可以被解碼的情況下它不會拋出一個，但結果是亂碼。它無法區分有意義和無意義的字符序列。

這裏有一些相關的參考資料，給予更好的方法：

Java : How to determine the correct charset encoding of a stream - 的答案不同討論這個問題的本質，並提出相關的庫。
http://tika.apache.org/0.8/api/org/apache/tika/parser/txt/CharsetDetector.html - 另一個庫...

但你需要牢記的是任何算法用於檢測字符編碼能給有時錯誤的答案。

來源

2014-01-13 15:00:35

爲什麼Shift_JIS字符集編碼文件返回EUC_JP類型？

下面是我的解碼

回答

相關問題