2017-03-27 44 views
0

據我所知,字符編碼將位映射爲整數,字符集將整數映射到字符。有沒有不尊重ASCII的字符集?

所以在Unicode字符集中有一個電話號碼。它使用整數9742表示,更常用十六進制表示爲260E。然後使用UTF-8將其保存到文件中,該文件將整數9742轉換爲10011000001110.如果我錯了,請糾正我。

昨天我創建了一個使用Unicode字符集和UTF-8編碼的文本文件,並將其保存到我的桌面。然後,我在文本編輯器中重新打開文件,並開始手動切換字符集以獲得樂趣。毫不奇怪,有問題和奇怪的字符開始顯示!我注意到只有一些角色被誤傳了。這讓我想到,爲什麼只有一些人物會突破?爲什麼不是所有?

有人告訴我,字符破壞是原始ASCII規範之外的。經過反思,這似乎是有道理的,因爲它只是非美國人物的突破。我被告知,因爲所有字符集都使用設置爲前128個字符的ASCII字符,它們將保持不間斷,並且這是中斷127以上的字符。如果我錯了,請糾正我。

最後,我想到了。有沒有不尊重ASCII的字符集?如果是這樣,他們叫什麼,他們用什麼?

+2

那麼一開始UTF-16,其中每個BMP代碼點是兩個字節,而不是一個。然後EBCDIC ... –

+1

谷歌「EBCDIC」。 –

+1

另請參閱[Baudot和ITA2](https://en.wikipedia.org/wiki/Baudot_code)。 –

回答

0

根據我的評論發現,我能夠回答我自己的問題。感謝所有評論過的人!

是的,有一對; EBCDICBaudot

+0

EBCDIC最近在那裏 - 很高興你不必處理IBM大型機文件:)順便說一句,是什麼答案?許多字符集在低字節範圍內似乎「允許」ascii兼容性。你的回答是否觸及了這一點?什麼文件頭?還有什麼可以分享的? – vikingsteve

相關問題