識別更多可壓縮數據集,這可能是這裏的問題的重複:Predict Huffman compression ratio without constructing the tree通過觀察輸入分佈
所以基本上,我有兩個數據集具有相同的變量,但不同的概率概率分佈。現在,有沒有辦法通過查看變量分佈,我可以在某種程度上自信地說數據集在通過霍夫曼編碼實現後會獲得比另一個更高的壓縮比?
我遇到的解決方案之一是使用條件熵計算上限,然後計算平均代碼長度。在使用上述方法之前,我還可以探索其他方法嗎?
非常感謝。
爲什麼你會盡量避免創建樹?創建並計算壓縮數據的大小(沒有實際編碼它)的速度非常快,在您擁有該樹之後是O(n)。 O(n logn)很難被壓縮比估計得很好。 – MrSmith42
是的,我同意,我很可能也會這樣做,但是假設有一種方法可以對樹的深度或樹的節點數進行很好的估計,以估計平均代碼長度。 –