是否有任何UTF-8無法識別的字節？

我使用以下代碼以UTF-8格式將字符串寫入流。我在我的字符串的字節前加上一個有符號的短，然後我寫出來。有一個例外：我不能以0x0010作爲前綴，因爲它是最終格式的關鍵字。但是我必須確保讀者最終得到與我的str參數完全相同的字符串，即使它的長度是0x0010。是否有任何UTF-8無法識別的字節？

public static void writeString(DataOutputStream out,String str) throws IOException{ 
    byte[] bytes = str.getBytes(CHARSET_UTF_8); 
    if(bytes.length > Short.MAX_VALUE){ 
     throw new IOException(); 
    } 
    short len = (short)bytes.length; 
    if(bytes.length == 0x0010){ 
     len++; 
    } 
    out.writeShort(len); 
    out.write(bytes); 
    if(bytes.length == 0x0010){ 
     out.write(DEAD_BYTE); 
    } 
} 
public static final Charset CHARSET_UTF_8 = Charset.forName("UTF-8");

UTF-8在字符串末尾無法識別的字節是否存在（256）？

另外，以下問題沒有幫助我。最後我以?的角色結束了。 30025693

來源

2017-03-26 Gergely

是的，0xFF是UTF-8中不能在任何地方的字節之一。而任何≥0xC0的數據都不能成爲最後一個。 – user2233709

'0xff'給出'？'它不起作用。 – Gergely

不知道你的意思。你的問題是你應該爲DEAD_BYTE使用什麼值？（我不知道java，不知道這是一個語言定義的值還是你自己定義的東西。）如果是這樣，我認爲你會好的0x00。無論如何，你處理特殊值0x10的方式對我來說看起來很錯... – user2233709

默認情況下，您放入UTF-8字符串的任何內容都將被解碼爲某個字符。如果它不是有效的UTF-8序列，將使用替換字符（�） - 並且仍將出現在輸出中。

您可以從輸出字符串中去除�，但它也可能來自輸入字符串。相反，你應該從編碼的UTF-8字節剝去額外的字節：

static String readString(final DataInputStream in) throws IOException { 
    int len = in.readUnsignedShort(); 
    final byte[] bytes = new byte[len]; 
    in.read(bytes); 
    if (bytes[len - 1] == -1) { 
     len--; 
    } 
    return new String(bytes, 0, len, UTF_8); 
}

另一種選擇是編碼長度時跳過0x0010和由1移動上述所有值：

static void writeString(final DataOutputStream out, final String str) throws IOException { 
    final byte[] bytes = str.getBytes(UTF_8); 
    short len = (short) bytes.length; 
    if (bytes.length >= 0x0010) { 
     len++; 
    } 
    out.writeShort(len); 
    out.write(bytes); 
} 

static String readString(final DataInputStream in) throws IOException { 
    int len = in.readUnsignedShort(); 
    if (len == 0x0010) { 
     throw new IllegalStateException(); 
    } else if (len > 0x0010) { 
     len--; 
    } 
    final byte[] bytes = new byte[len]; 
    in.read(bytes); 
    return new String(bytes, UTF_8); 
}

兩種這些解決方案是黑客並可能在未來造成麻煩。正確的解決方案是去除這種人爲限制：

如果您控制最終格式，請重新設計它，以便允許任何字節序列。
否則，如果0x0010僅在第一個位置被禁止，請始終在其中放置一個常數值，然後再放入實際長度。（例如：00 11 00 10 ...）
否則，如果0x0010不能在任何位置出現，逃避它：\x00\x10被編碼爲\\n和\被編碼爲\\

最後0x0010看起來像UTF-16編碼的新行。如果確實如此，您不應該將二進制數據放入文本中 - 這會導致更多的問題。在這種情況下，您應該將字符串直接放在UTF-16編碼的文本中，或者使用像base64這樣的ASCII安全編碼。

來源

2017-03-26 10:22:43

是否有任何UTF-8無法識別的字節？

回答

相關問題