我具有被unix下描述爲一個文件:的iconv unicode的未知的輸入格式
$file xxx.csv
xxx.csv: UTF-8 Unicode text, with very long lines
查看它在less
/vi
將呈現一些特殊字符(SSA°...)不可讀(├╝); Windows也不會顯示它;直接將它導入數據庫只會將特殊字符更改爲其他特殊字符(+ä,+ñ,...)。
我想現在將它轉換爲帶有iconv的「默認可讀」編碼。 當我嘗試它使用UNICODE作爲輸入和UTF-8的iconv
$iconv -f UTF-8 -t ISO-8859-1 xxx.csv > yyy.csv
iconv: illegal input sequence at position 1234
轉換爲輸出將返回相同的消息
我猜在文件中另一種格式有所編碼,我不知道如何找出哪種格式,以便將其轉換爲「普遍」可讀的格式...
嘗試在文本編輯器中打開它,使您可以更改打開文件的編碼。瀏覽器最糟糕的情況也會發生。然後玩弄可用的編碼並查看正確顯示字符的內容。 – deceze
我試着用記事本++,但它是680MB和記事本++告訴我這是太大.. –
該文件顯然不是UTF-8,即使'文件'猜測它。你能否以十六進制形式向我們展示從偏移量1234開始的八個字節? –