我正在尋找編碼user_ids在長長的通話記錄列表。佔用最多空間的這些記錄的部分是呼叫者和接收者的符號。我將創建一個映射,將最活躍的調用者分配更短的符號---這將有助於保持文件的整體大小(並因此減少I/O時間)。用已知概率分佈壓縮符號的最佳熵編碼方案是什麼?
我事先知道多少次的每個符號將被用於---換句話說,我所知道的相對概率分佈。此外,生成的代碼是「前綴無關」的,例如霍夫曼代碼並不重要。那麼什麼是最好的編碼方案,即能夠提供最大壓縮率和快速實現的編碼方案?
的答案應該不僅指向一個壓縮方案,它應該也指向編碼方案的實現。
這功課嗎?它聽起來很像它。 – 2011-05-15 23:15:37