我正在使用Python 3.1,但如果需要可以降級。Python - 字母頻率計數和轉換
我有一個ASCII文件,其中包含用其中一種語言編寫的短故事,其中的字母表可以用上和下ASCII表示。我想:
1)檢測的編碼,以我的能力,得到某種信心指標的(會根據文件的長度發生變化,右)
2)自動整個翻譯?使用一些免費的在線服務或圖書館的東西。
附加問題:如果文本是用2個或更多字節表示一個字母並且字節順序標記不能幫助我的語言編寫的呢?
最後,我該如何處理標點和misc等字符,如空格?它會比一些字母發生得更頻繁,對吧?標點符號和人物有時可能會混在一起 - 可能有逗號的兩種表示,看起來像「a」的兩種表示等等,這一事實如何?我已閱讀。請幫助我至少一些這些項目。
謝謝!
P.S.這不是一項家庭作業,但它是爲了自我教育的目的。我更喜歡使用開放源代碼和可讀的字母頻率庫,而不是那種封閉,高效的,但可以很好地完成工作的函數庫。
謝謝。請詳細說明第二段。我想我的編碼知識並不像我想的那麼深。 – 2010-02-09 23:45:14
有人說UTF-8?! – jathanism 2010-02-10 00:11:05