2012-10-17 53 views
-1

我有3個主要問題:爲什麼我們不使用字級進行字符串壓縮?

比方說,我有一個大的文本文件。 (1)用他們的等級替換單詞是壓縮文件的有效方法嗎?(爲此問題提供的答案,這是一個糟糕的主意。)

另外,我已經想出了一種新的壓縮算法。我閱讀了一些廣泛使用的現有壓縮模型,並發現它們使用了一些非常先進的概念,如統計冗餘和概率預測。我的算法不使用所有這些概念,而是一組相當簡單的規則,在壓縮和解壓縮時需要遵循。 (2)我的問題是,我是否浪費時間試圖提出一種新的壓縮算法,而沒有對現有壓縮方案有足夠的瞭解? (3)此外,如果我設法成功壓縮字符串,我可以將我的算法擴展到其他內容,如視頻,圖像等?我知道如果沒有關於壓縮算法的知識,第三個問題很難回答,但是我擔心算法是如此簡陋和新生,我對分享它感到羞恥,請不要忽視第三個問題if你必須)

+0

你到底在使用現有的壓縮技術做什麼? – PinnyM

+0

以計算能力爲代價實現更好的壓縮比......因爲計算能力日益變得更加便宜,但網絡速度仍然停滯不前。 – ritratt

回答

1
  1. 你的問題是沒有意義的,因爲它主張(參見答案#2),但我會嘗試重組,你可以讓我知道,如果我抓住你的問題。使用單詞的概率對文本進行建模是否會產生良好的文本壓縮算法?答案:不會。這將是一個零階模型,並且不能利用更高階的相關性,比如前一個單詞之後給定單詞的條件概率。尋找匹配字符串和不同字符概率的簡單的現有文本壓縮器的性能會更好。

  2. 是的,你正在浪費你的時間試圖想出一個新的壓縮算法,而沒有足夠的現有壓縮方案的知識。您應該首先了解隨着時間的推移應用的技術來建模數據,文本和其他方法,以及使用建模信息壓縮數據的方法。在開發新方法之前,您需要研究已經研究了幾十年的內容。

  3. 壓縮部分可能會擴展,但建模部分不會。

+0

你沒有聽到我的第一個問題,但沒關係。無論如何,我找到了答案。 – ritratt

1

你的意思是說有一個按頻率排序的單詞排序表,併爲那些重複次數最多的單詞指定較小的「符號」,從而減少需要傳輸的信息量?

這基本上Huffman Coding是如何工作的,與壓縮的問題是,你總是打一個limit somewhere along the road,當然,如果設定的東西,你嘗試壓縮遵循particular pattern/distribution那麼它可能是真正有效這個問題,但對於一般用途(音頻/視頻/文本/加密數據似乎是隨機的)沒有(我認爲不可能)是「最好」的壓縮技術。

+0

未按頻率排序。我的意思是字母排名。例如單詞'a'具有等級1.單詞'z'具有等級26.單詞'ab'具有等級28等等。 – ritratt

+0

@ritratt所以你建議一個算術編碼,假設信件的統一分佈?那不會很有效... –

+0

@JanDvorak你是對的。我只是意識到,它會像使用數字系統庫26一樣。存儲任何單詞都將佔用與字母或數字相同的空間。所以我的第一個問題就回答了! – ritratt

0

霍夫曼編碼在字母上使用頻率。您可以在單詞或字母頻率方面採用更多維度,即字母及其頻率的組合。