我得到了一個MySQL數據庫的出口,似乎有它的編碼隨着時間的推移有點混淆,並且包含HTML char codes
的混合,例如& uuml;
和代表相同字母的更多問題字符,如ü
和Ã
。我的任務是將一些一致性恢復到文件並將所有內容都放入正確的拉丁字符中,例如ú
和ó
。轉換特殊字符,如Ã和Ã回到他們原來的拉丁語alphbet對應的C#
排序我處理字符串的一個例子是
DesinfektionslösungstücherfürFlächen
這應該等同於
50 Tattoo Desinfektionsl ö sungst ü cher f ü r Fl ä chen
50 Tattoo Desinfektionsl ö sungst ü cher f ü r Fl ä chen
有沒有一種方法可在C#/。Net 4.5中使用,它可以成功地重新編碼ü
和Ã
t UTF-8
?
否則採用什麼方法是可取的?
也是上面例子中的段落字符¶
字符串一個實際的段落字符或一些其他字符組合的一部分?
我在創建一個查找表的情況下,需要找到並替換下面,但我不確定它是多麼完整。
É -> É
“ -> "
†-> "
Ç -> Ç
à -> Ã
é, 'é
à -> ú -> ú
• -> -
Ø -> Ø
õ -> õ
à -> í
â -> â
ã -> ã
ê -> ê
á -> á
é -> é
ó -> ó
â€「 -> –
ç -> ç
ª -> ª
º -> º
à -> à
ped角:'Ã''和'Ã'完全不是「特殊字符」,但** [Mojibake](https://en.wikipedia.org/wiki/Mojibake)**。 – Boann 2013-02-20 14:11:57
@Boann ped away ...有趣 – 2013-02-20 15:03:52
Btw你的帖子有點誤導,修復數據後,我得到了'DesinfektionslösungstücherfürFlächen',這似乎是正確的,但在你的預期結果,你有空間。 – Esailija 2013-02-20 16:59:00