Q

對於相同的UTF-8字符，編碼結果不同

2017-02-07 69 views 0 likes

0

一個編碼方案給出ã as a%CC%83，另一個給出ã as %C3%a3。對於相同的UTF-8字符，編碼結果不同

這兩個有什麼區別？我正在調試這個，發現a%CC%83實際上是2個字符。一個用於~這是%CC%83和一個用於a。但是，如何獲得該編碼？

2017-02-07 Vivek Vardhan

A

回答

1

這是正常的行爲。在Unicode中，相同的符號可以編碼爲單個字符或組成兩個或更多字符。

https://en.wikipedia.org/wiki/Precomposed_character

2017-02-07 11:39:27

+0

但是，組成一個不適合我們。如何禁用該功能。我只需要編碼爲'單個字符' –

+0

@VivekVardhan，你使用什麼編程語言？您需要執行Unicode標準化來預編碼字符，但請注意，並非所有分解字符都具有預編碼字符。 –

+0

我們正在以這種方式獲取來自Android應用的請求。並且對Lucene的查詢不會給出合成編碼的結果，但會給出正常編碼（單字符編碼）的正確結果，但是對於相同的ios發送單字符編碼值 –

相關問題