2012-10-18 55 views
1

我想通過使用文字作爲符號而不是字符壓縮文本,我不知道這是一個好主意,但我只是想測試它(用於科學) 。壓縮文本的拼寫和典範霍夫曼編碼

問題是,我無法真正存儲所有的英語單詞,所以我收集了一個非常常見的單詞列表(約1600字),我打算改變它的形式,就像拼寫檢查器存儲的單詞的形式。 (例如:殺,殺,ING,殺兒,這取決於它是否是一個動詞扼殺-,形容詞等)

http://en.wikipedia.org/wiki/Canonical_Huffman_code

我想知道,如果霍夫曼的這個特殊版本的編碼適合我的需要,因爲'字典'不會經常變化,並且可以通過解壓縮工具進行分發。似乎我在創建我的原始哈夫曼樹之前必須指定這些詞的頻率,然後再將它轉換爲規範的哈夫曼樹。

如果我在這裏錯過了一個觀點,或者這是一個好的或不好的主意,你能糾正我嗎?

回答

0

這裏要注意的一點是,這個特殊的變體的優點是只有較小的碼本而不是壓縮的數據。因此,使用它無論哪裏你需要包括huffman碼書以及你提供的數據,你替換的部分是順序的。 由於單詞自然可以按照順序進行排序,因此您應該使用Canonical Huffman Code。