Ruby和編碼轉換

我正在將一個CSV文件導入到Ruby（1.8.7）中。。File.open（ '路徑/到/ FILE.CSV'）讀返回此在控制檯：Ruby和編碼轉換

Stefan,Engstr\232m

編碼由UniversalDetector會（chardet的寶石）鑑定爲異8859-2。

UniversalDetector::chardet("Stefan,Engstr\232m") 
=> {"confidence"=>0.626936305574385, "encoding"=>"ISO-8859-2"}

試圖將字符串轉換產生如下：

Iconv.conv("UTF-8", "ISO-8859-2", "Stefan,Engstr\232m") 
=> "Stefan,Engstrm"

，而我希望：

=> "Stefan,Engström"

能串真的是在一些其他的編碼？
我之前沒有看到\ 232語法，通常當字符串被奇怪地編碼時，會出現一些奇怪的字符。或一些中國人。

讓我知道，如果我應該提供更多的信息或闡述一些事情。

來源

2011-12-07 sandstrom

它看起來並不像它的'ISO-8859-2'。這將是'\ 246' http://en.wikipedia.org/wiki/ISO_8859-2 –

@Kassym：在ISO 8859-2中它將是'\ 366'，''\ nnn''表示法使用八進制。 –

編碼可能是"Macintosh Roman"，其他選項可能是"Mac Central European"和"Mac Icelandic"。 \nnn表示法使用八進制，因此\232爲十進制154，字符154爲小寫的O型變音符（「ö」），您期望在所有三種編碼中使用這種方式;我沒有看到任何Windows代碼頁或ISO 8859字符集中的154。我猜想Mac Roman比冰島或中歐編碼更普遍。

嘗試使用'MacRoman'作爲源編碼，語言Iconv：

>> Iconv.conv("UTF-8", "MacRoman", "Stefan,Engstr\232m") 
=> "Stefan,Engström"

來源

2011-12-07 19:51:42

非常好的趕上！ –

感謝！我嘗試了更大的數據集，它也運行得很好。現在我只需要弄清楚如何檢測字符集，因爲'UniversalDetector :: chardet'無法正確執行。你似乎很瞭解這個地區 - 有什麼想法？ – sandstrom

閱讀完一些後，區分Macroman似乎很難。 http://sackoverflow.com/questions/4198804/how-to-reliably-guess-the-encoding-between-macroman-cp1252-latin1-utf-8-and – sandstrom

Ruby和編碼轉換

回答

相關問題