計算文本文件中每個漢字的出現

我想學中文的快速方法。一個偉大的工具是在我閱讀出現的文本之前學習每個角色。計算文本文件中每個漢字的出現

我想要一個讀取文本文件的函數，標識每個漢字（或漢字）並按出現次數對它們進行分類。

當談到編程時，我是一個總喜歡的人，但我已經準備好在Python或任何其他語言中學習它，我可以快速學習。

例如，輸入：

我妹妹現在在北京

輸出：

在 - 2 
妹 - 2 
我 - 1 
現 - 1 
北 - 1 
京 - 1

提醒一下，有超過40000個漢字，即使5000在日常使用綽綽有餘。

來源

2015-11-26 Ben

使用python3：

from collections import Counter 

print(Counter(open("test.txt").read())) 
Counter({'妹': 2, '在': 2, '現': 1, '京': 1, '我': 1, ' ': 1, '北': 1}

與Python 2使用io.open：

from io import open 
print(Counter(open("test.txt").read())) 
Counter({u'\u5728': 2, u'\u59b9': 2, u' ': 1, u'\u4eac': 1, u'\u6211': 1, u'\u73b0': 1, u'\u5317': 1})

來源

2015-11-26 20:11:35

這似乎只與您指定的幾個字符工作。正如我所說，我不想在我的代碼中手動輸入5,000個字符，更不用說50,000 – Ben

我沒有指定任何字符，我在你的問題中使用了字符，如果它不適合你，那麼你有編碼問題*這似乎只適用於你已經指定的幾個字符*絕對沒有洞察力 –

計算文本文件中每個漢字的出現

回答

相關問題