-2
我有一個由數千行組成的語料庫。爲了簡單起見,讓我們考慮語料庫爲:信息理論測量:熵計算
Today is a good day
I hope the day is good today
It's going to rain today
Today I have to study
如何使用上面的語料庫計算熵?對熵的公式表示爲:
這是我的理解至今:皮指其爲frequency(P)/(total num of characters)
計算的個人標誌的概率。我不明白的是總結?我不確定這個具體的公式是如何進行求和的?
我正在使用Python 3.5.2
進行統計數據分析。如果有人能夠幫助我用熵計算的代碼片段,那將是非常好的。
必須有一個'numpy'方法來執行一個數組函數的總和。 – Barmar