2015-11-26 35 views
1

我想學中文的快速方法。一個偉大的工具是在我閱讀出現的文本之前學習每個角色。計算文本文件中每個漢字的出現

我想要一個讀取文本文件的函數,標識每個漢字(或漢字)並按出現次數對它們進行分類。

當談到編程時,我是一個總喜歡的人,但我已經準備好在Python或任何其他語言中學習它,我可以快速學習。

例如,輸入:

我妹妹現在在北京 

輸出:

在 - 2 
妹 - 2 
我 - 1 
現 - 1 
北 - 1 
京 - 1 

提醒一下,有超過40000個漢字,即使5000在日常使用綽綽有餘。

回答

3

使用python3:

from collections import Counter 

print(Counter(open("test.txt").read())) 
Counter({'妹': 2, '在': 2, '現': 1, '京': 1, '我': 1, ' ': 1, '北': 1} 

與Python 2使用io.open

from io import open 
print(Counter(open("test.txt").read())) 
Counter({u'\u5728': 2, u'\u59b9': 2, u' ': 1, u'\u4eac': 1, u'\u6211': 1, u'\u73b0': 1, u'\u5317': 1}) 
+0

這似乎只與您指定的幾個字符工作。正如我所說,我不想在我的代碼中手動輸入5,000個字符,更不用說50,000 – Ben

+0

我沒有指定任何字符,我在你的問題中使用了字符,如果它不適合你,那麼你有編碼問題*這似乎只適用於你已經指定的幾個字符*絕對沒有洞察力 –

相關問題