在我的C#代碼中,我從PDF文檔中提取文本。當我這樣做時,我得到一個UTF-8或Unicode編碼的字符串(我不知道是哪一個)。當我使用Encoding.UTF8.GetBytes(src);
將其轉換爲一個字節數組,我注意到空白實際上是兩個字符的194字節值和160如何修復空格的UTF編碼?
例如字符串「CLE行動」的模樣
[67, 76, 69, 194 ,160, 65 ,99, 116, 105, 111, 110]
在一個字節數組中,空格是194和160 ...因爲這個src.IndexOf("CLE action");
在我需要它返回時返回-1。
如何修復字符串的編碼?
我該如何用一個普通的空間來替換一個不間斷的空間? – omega
@omega:src = src.Replace('\ u00A0',''); – RichieHindle