2015-04-04 105 views
0

我有兩個文件。一個在utf-8中,另一個我認爲是在windows-1256中。我想統一編碼(一個是訓練集,另一個是測試集)將utf8轉換成windows-1256

UTF-8文件:

سلمانی را به توافق بگیر 
وقتی یک مرد محترم شصت ساله ، در یک جامه قهوه‌ای رسمی ، خوش لباس ، ولی خیلی خوب نگه داشته 

窗口-1256文件:

äÇåí Èå äãÇíÔÇå ÂËÇÑ åäÑí ÇÍãÏ ØÈÇØÈÇíí 
ãæÖæÚ ÂËÇÑ ØÈÇØÈÇíí ãæÑÇä åÓÊäÏ æáí ÏÑ ÈÇØä äíä ÙÇåÑí¡ Çíä 

我試過多個在線工具,但是當我將utf-8轉換爲1256時,它看起來與其他文件完全不同,當我將1256轉換爲utf-8時,它不會改變!

回答

0

問題解決了。我用這個命令:

iconv -f UTF-8 -t WINDOWS-1256//TRANSLIT --output=Ham.txt Ham-utf 

問題是我的windows-1256文件太大了。我將它的一部分複製到一個名爲ham-mini的單獨文件中。複製它的一部分是問題並損壞了文件。我用上面的命令爲原始文件,問題得到解決。