2014-02-13 53 views
0

我有大約3,500個混合字符集的文本文件:ISO-8859,UTF-8,ASCII,UTF-16和其他。如何合併這3,500個混合字符集文本文件?

我想將它們全部合併成一個unicode文本文件,所以我可以在它上面運行一個Python腳本。

如果我使用cat,它不會正常工作。

解決此問題的最佳方法是什麼?

+0

你知道哪些文件有哪些編碼?每個文件只有一個編碼嗎? – phs

+0

@phs一個文件可以有多個1編碼?哦,我的思維@ _ @ –

+0

一個完美的人不會像你看到'貓'一樣,很容易製作一個混合它們的文件。 – phs

回答

0

你可以用iconv這樣的工具預先轉換它們,或者用正確的編碼將它們加載到Python中(由setting the correct encoding to open)。

如果你不知道每個文件的編碼是什麼,那麼它更復雜,因爲你需要檢測每個文件的編碼。有很多啓發式,但不是絕對標準的方法來做到這一點。再次,使用iconv可以在這裏幫助很多。

+0

我現在正在嘗試'iconv'。如果我願意,我可以使用文件來告訴編碼。我想'iconv -c -t UTF-8 *> everything.txt' –

+0

我想象一下,UTF-16文本上的iconv -c -t UTF-8會導致災難性的結果... – nodakai

+0

@nodakai你就是對的:) –