UTF8：U + 00E9é分成U + 0065 e和U + 00B4'

當我打開在己視圖一個UTF8-文件時，é被分成兩個字符（U + 0065È和U + 00B4'），而不是使用明顯字符U + 00E9 é。

如果我這些數據存儲在我的數據庫（注：排序規則設置爲German_PhoneBook_CI_AI）那麼它的存儲

德帕迪約，Ge'rard（!!）

代替： Depardieu，Gérard。

所以我想知道數據本身是否有缺陷或缺少什麼樣的信息。讓我知道如果你需要更多的信息與此問題相結合。

表面問題是：我該如何解決這個問題？

注：我將這個問題標記爲C＃/ VB.NET，因爲可能有代碼片段有用的答案。

那個UTF-8文件是如何創建的，以及你在數據庫中使用什麼編碼？ – cdoubleplusgood

如果它確實是一個UTF8文件，那麼é應該被編碼爲0xc3，0xa9 –

在Unicode中有組合的變音符號，但U + 00B4不是它們中的任何一個。我說，編碼不是UTF-8或它是錯誤的。 – cdoubleplusgood

我們解析unicode的網站沒有提供正確的unicode。

2014-12-18 11:15:45

回答