0
我正在努力處理一些UTF8數據。UTF8:U + 00E9é分成U + 0065 e和U + 00B4'
當我打開在己視圖一個UTF8-文件時,é被分成兩個字符(U + 0065È和U + 00B4'),而不是使用明顯字符U + 00E9 é。
如果我這些數據存儲在我的數據庫(注:排序規則設置爲German_PhoneBook_CI_AI) 那麼它的存儲
德帕迪約,Ge'rard(!!)
代替: Depardieu,Gérard。
所以我想知道數據本身是否有缺陷或缺少什麼樣的信息。 讓我知道如果你需要更多的信息與此問題相結合。
表面問題是:我該如何解決這個問題?
注: 我將這個問題標記爲C#/ VB.NET,因爲可能有代碼片段有用的答案。
那個UTF-8文件是如何創建的,以及你在數據庫中使用什麼編碼? – cdoubleplusgood
如果它確實是一個UTF8文件,那麼é應該被編碼爲0xc3,0xa9 –
在Unicode中有組合的變音符號,但U + 00B4不是它們中的任何一個。我說,編碼不是UTF-8或它是錯誤的。 – cdoubleplusgood