2015-10-12 30 views
-2

我有一個文件的工作,我想這與這類: 排序-k1,1 -k2,2n -k4,4nUbuntu的sort命令,不指出錯誤編碼

如果文件不包含諸如ü,ä,ö之類的東西或者它的工作原理。但如果這樣做,這種排序是不正確的。

文件是ASCII

因此文檔進行排序前:它是這樣

übersetzt Bethoven bibliothek

和排序後的:

Bethoven übersetzt bibliothek

所以它是worng,實際上排序命令忽略了ü,並認爲bersezt是之前的圖書館。

你知道我該如何處理這個問題嗎?

在此先感謝

回答

0

我發現瞭如何處理特殊字符像ü,O,A。 如果有人會有類似的問題,這裏是我如何修復它:

sed -i -r -e 'y/äöüÄÖÜß/{|}¢µ¼¥/' path/to/file 

LC_ALL=C sort -f path/to/file > path/to/file-sorted 

sed -i -r -e 'y/{|}¢µ¼¥/äöüÄÖÜß/' path/to/file-sorted