直到最近,我的博客還使用了PHP和MySQL不匹配的字符編碼設置。我已經解決了潛在的問題,但我仍然有大量充滿垃圾的文本。例如,ï
已變成ï
。如何恢復通過字符編碼wringer發送的文檔?
是否有軟件可以使用模式識別和統計來自動發現破損的文本並修復它?
例如,它看起來像U+00EF
(UTF-8 0xC3 0xAF
)已成爲U+00C3 U+00AF
(UTF-8 0xC3 0x83 0xC2 0xAF
)。換句話說,十六進制編碼已被用於代碼點。這種模式發生在整個我的網站(看似隨機)的非ASCII字符。
我編輯了我的帖子來澄清:它不只是這個字符。 我的意思是,我當然可以轉儲數據庫,找到所有非ASCII字符序列,找到它們的原始值(在適當的情況下)並在整個文件中直接查找和替換...但我正在尋找更一般的解決方案 – phyzome 2009-09-14 14:03:45