我有一個文本文件充滿了非ASCII字符。 我無法通過file
或enca
檢測到編碼。如何把「二進制文本」轉換爲「可見文本」?
file non_ascii.txt
non_ascii.txt: Non-ISO extended-ASCII text
enca non_ascii.txt
Unrecognized encoding
但我可以在Windows記事本++
編輯正常打開:上面的表達導致誤解。非常遺憾。事實上,我選擇了原始文件的一些部分,並將它們放到新的文本文件中,然後在記事本++中打開。
問:
- 我怎麼能發現linux下的編碼文件?
- 我該如何恢復
<F1><EE><E9><E4><FF>
代表的字符? 即使「сойдя」被編碼爲<F1><EE><E9><E4><FF>
,我仍無法獲得「grep'сойдя'win.txt」的結果?
文件內容分片如下:
less non_ascii.txt
"non_ascii.txt" may be a binary file. See it anyway?
<F1><EE><E9><E4><FF>
<F2><F0><E0><EA><F2><EE><E2><E0><F2><FC><F1><FF>
<D0><F2><E9><E4><D7><E9><E7><E1><EC><E1><F3><F8>
<D1><E5><EA><F3><ED><E4>
<F0><E0><E7><E3><F0><F3><E7><EA><E8>
<EF><EE><E4><F1><F2><E0><E2><EB><FF><F2><FC>
<F0><E0><E7><E3><F0><F3><E7><EA><E5>
<F1><EE><E9><E4><F3>
<F0><E0><E7><E3><F0><F3><E7><EA><E0>
<F1><EE><E2><EB><E0><E4><E0><EB><E8>
<C1><D7><E9><E1><F0><EF><FE><F4><E1>
<CB><C1><D3><D3><C9><D4><C5><D2><C9><D4>
<F1><EE><E2><EB><E0><E4><E0><EB><EE>
<F1><EE><E9><E4><E8>
<F1><EE><E2><EB><E0><E4><E0><EB><E0>
'notepad ++'認爲編碼是什麼?它應該說在狀態欄的某個地方。 – nneonneo
我從文件中得到2個片段。他們正在顯示「Windows-1251」和「ANSI」。文件中可能包含其他編碼。那麼有什麼方法將混合編碼的內容轉換爲UTF-8? – user1744585
您的文件包含以不同方式編碼的部分? – nneonneo