2017-05-31 55 views
0

我在SQL Server中有一個表格,裏面填充了一些錯誤編碼的字符。當我有消息來源時,我發現源頭也有問題。我沒有正確編碼的數據(即正確表示這些數據)。我希望編碼系統之間有一對一的關係,所以我可以解碼字符並找到正確的編碼。如何修復錯誤編碼的字符串?

到目前爲止,我是部分能夠編碼,但它顯然是錯誤的,請參閱下面的例子,

Autã³Noma De Ciudad Juã¡Rez - >Auta3Noma De Ciudad Jua!Rez
Plutarco Elías Calle - >Plutarco ElA-as Calles
Tecnolã³Gico - >Tecnola3Gico

我做這在R與,

iconv('Gálvez Quiñones', to='ASCII//TRANSLIT') 
[1] "GA!lvez QuiA?ones" 

當你看,我還沒有成功。你認爲在R,Python或SQL Server中正確編碼這些錯誤編碼的字符是可行的嗎?

回答

0

嘿,這是一個PARTIAL溶液,即,它不涉及阱/修復一些字符(例如標-3,逆感嘆號,A與〜)。但它與其他2.運行良好。我使用iconv並更改了to編碼。

universidades<- c("Autã³Noma De Ciudad Juã¡Rez", 
     "Plutarco Elías Calle", "Tecnolã³Gico", "Gálvez Quiñones") 
universidades 
    [1] "Autã³Noma De Ciudad Juã¡Rez" "Plutarco Elías Calle"  
    [3] "Tecnolã³Gico"    "Gálvez Quiñones"   
iconv(universidades, to="latin-9") 
    [1] "Aut\xe3\xb3Noma De Ciudad Ju\xe3\xa1Rez" 
    [2] "Plutarco Elías Calle"     
    [3] "Tecnol\xe3\xb3Gico"      
    [4] "Gálvez Quiñones"