2011-09-12 57 views
1

我對他們如何計算「每個符號的平均位數」有些困惑。這是通過取每個字符的概率並將其乘以像常規熵或其他方式的lg(1 /概率)來計算的?計算數據壓縮的熵

另外,如果這是真的,他們怎麼知道信件的平均出現是什麼?

回答

2

我真的不應該回答這個問題,因爲我不知道很多關於壓縮,但我可以說:

  • 如何界定「每個符號的比特」?

你是對的;它的規則熵定義爲-Σp·log(p)。請注意,這實際上並不是字符的頻率,而是頻率的消息。即,下面的一組消息

{ abcdefghijklmnopqrstuvwxyz } 

看起來不錯分析字母的字母,但具有0

  • 熵,你怎麼能知道一個字母的平均發生的是什麼?

從理論上講,除非您知道生成消息的確切過程,否則無法確切知道。你必須使用一些啓發式。就像大量採樣和計數一樣,或者尋找你知道的模式是冗餘的跡象。如英文文本等

+0

感謝您的迴應:-)對不起,如果這是一個愚蠢的問題買了這個消息的熵是0? – rubixibuc

+0

@rubixbuc這組消息的熵值爲零,因爲其中只有1條消息。 – Owen