我正在尋找和摧毀任何東西,讓亞馬遜感到不快。在過去,我用iconv
從「UTF-8」,以在「latin1」轉換處理,但我不能這樣做,在這裏,因爲它的編碼爲「未知」:如何匹配所有國際化文本?
test <- "Gwena\xeblle M"
> gsub("\xeb","", df[306,"primauthfirstname"])
[1] "Gwenalle M"
> Encoding(df[306,"primauthfirstname"])
[1] "unknown"
那麼什麼正則表達式消除了所有\ x ##代碼?
您是否碰巧知道如何輕鬆生成所有\ x ##代碼,並將它們輸出爲字符向量? (我需要它來測試一個可能的解決方案)。 – 2012-07-06 22:08:00
@ JoshO'Brien不,但這裏有一些測試:'測試< - c(「\ x92」,「\ xe4」,「\ xe1」,「\ xeb」)' – 2012-07-06 22:09:36
爲了記錄,這是一個非常簡單的方法來生成「\ x ##」形式的所有字符:'sapply(0:255,intToUtf8)'。 – 2012-07-06 22:48:03