如何修復錯誤編碼的字符串？

我在SQL Server中有一個表格，裏面填充了一些錯誤編碼的字符。當我有消息來源時，我發現源頭也有問題。我沒有正確編碼的數據（即正確表示這些數據）。我希望編碼系統之間有一對一的關係，所以我可以解碼字符並找到正確的編碼。如何修復錯誤編碼的字符串？

到目前爲止，我是部分能夠編碼，但它顯然是錯誤的，請參閱下面的例子，

Autã³Noma De Ciudad Juã¡Rez - >Auta3Noma De Ciudad Jua!Rez
Plutarco ElÃas Calle - >Plutarco ElA-as Calles
Tecnolã³Gico - >Tecnola3Gico

我做這在R與，

iconv('GÃ¡lvez QuiÃ±ones', to='ASCII//TRANSLIT') 
[1] "GA!lvez QuiA?ones"

當你看，我還沒有成功。你認爲在R，Python或SQL Server中正確編碼這些錯誤編碼的字符是可行的嗎？

來源

2017-05-31 Dogan Askan

嘿，這是一個PARTIAL溶液，即，它不涉及阱/修復一些字符（例如標-3，逆感嘆號，A與〜）。但它與其他2.運行良好。我使用iconv並更改了to編碼。

universidades<- c("Autã³Noma De Ciudad Juã¡Rez", 
     "Plutarco ElÃas Calle", "Tecnolã³Gico", "GÃ¡lvez QuiÃ±ones") 
universidades 
    [1] "Autã³Noma De Ciudad Juã¡Rez" "Plutarco ElÃas Calle"  
    [3] "Tecnolã³Gico"    "GÃ¡lvez QuiÃ±ones"   
iconv(universidades, to="latin-9") 
    [1] "Aut\xe3\xb3Noma De Ciudad Ju\xe3\xa1Rez" 
    [2] "Plutarco Elías Calle"     
    [3] "Tecnol\xe3\xb3Gico"      
    [4] "Gálvez Quiñones"

來源

2017-05-31 22:28:48

如何修復錯誤編碼的字符串？

回答

相關問題