2016-06-19 115 views
2

當我打開包含中文字符的csv文件時,使用Microsoft Excel,TextWrangler和Sublime Text,有一些中文字,無法正確顯示。我不知道爲什麼會出現這種情況。 https://www.hkex.com.hk/eng/plw/csv/List_of_Current_SEHK_EP.CSV讀取帶有中文字符的CSV文件[一個字符無法顯示]

一個字不能正確顯示如下所示:

具體來說,csv文件可以在下面的鏈接中找到 enter image description here

正如你可以看到?可以被找尋到。

使用mac文件命令,如 http://osxdaily.com/2015/08/11/determine-file-type-encoding-command-line-mac-os-x/建議告訴我,csv格式是utf-16le。

我想知道有什麼問題,爲什麼我不能讀取特定的文本? 它與編碼有關嗎?或者它與我的筆記本電腦設置有關?嘗試在Mac上使用Mac和Windows 10(通過並行桌面)無法正確顯示工作。

感謝您的幫助。我真的很想知道爲什麼這個特定的文本無法正確顯示。

回答

3

匯豐金融證券的實際名稱是:

匯豐金融證券(香港)有限公司

的第一個字符,U + 6ED9 ,是麻煩HKSCS字符之一:這些字符在標準的Unicode之前的Big-5中是不可用的,後來以不兼容的方式進行嫁接。

有一段時間,在轉換爲Unicode時,將這些字符轉換爲專用區字符有一個不幸的習慣。這些數據大概是在當時被轉換的,現在已經被損壞,用U + E05E 私人使用區域字符替換

對於您肯定是由HKSCS-compatible-bodge產生的PUA案例,您可以使用this table將其轉換回適當的Unicode。

+0

感謝您的好的答案。它現在有效。但我還有一些不清楚的地方。 「ISO/IEC 10646:2003修訂版1」中的「香港增補字符集-2004」與「修訂版1」中ISO/IEC 10646:2003中的實際ISO 10646代碼兩個欄目的兼容性究竟意味着什麼? 另外,如何確保csv中的哪個角色需要使用這樣的地圖進行轉換,哪一個不需要?謝謝。 – CHANist

相關問題