我想更好地理解壓縮算法(如zlib)的輸出如何與理論預期進行比較。所以我有幾個問題。 (1)首先我想檢查一下,我是否正確計算了壓縮率。說我希望壓縮的1000對那些陣列,我可以做以下 # encode the array such that len(s) == 1000 bytes
s = np.ones(1000, dtype='uint8').tostring()
# compress u
我有一個由數千行組成的語料庫。爲了簡單起見,讓我們考慮語料庫爲: Today is a good day
I hope the day is good today
It's going to rain today
Today I have to study
如何使用上面的語料庫計算熵?對熵的公式表示爲: 這是我的理解至今:皮指其爲frequency(P)/(total num of ch