2010-05-25 32 views
0

我存儲在SQL Server文檔中的varbinary(最大)的Fileds,我使用FILESTREAM可選,當用戶有:哪些文件類型值得爲遠程存儲進行壓縮(壓縮)?對於哪些壓縮大小/原始大小比率是<< 1?

(DB_Size + Docs_Size) ~> 0.8 * ExpressEdition_Max_DB_Size 

我目前荏苒的所有文件,反正這是因爲文件讀/寫完成工作是在10年前開發的,其中存儲比現在更昂貴。

壓縮時的許多文件幾乎與原始文件一樣大(壓縮的pdf大約是原始大小的95%)。無論如何unzipping有一些開銷,當我還需要「簽入」/更新文件,因爲我需要壓縮它會變成兩次。

所以我想給用戶選擇是否通過提供一些有意義的默認值來壓縮文件類型。對於我的經驗,我會給予下列規則:

1)默認郵政編碼:TXT,BMP,RTF

2)默認情況下不郵政編碼:JPG,JPEG,Microsoft Office文件,打開Office文件,PNG ,tif,tiff

你能推薦其他文件類型嗎?最常用的還是其他文件類型?

回答

3

.doc和.mdb文件實際上往往壓縮得很好,如果我沒有記錯的話。雖然Office 2007等效(.docx和.accdb)已經是zip文件了...所以壓縮它們幾乎沒有用處。

不要忘記HTML和XML文件。郵編默認。

+0

感謝您的回答。我不知道Doc2007,好主意。我也想到了一個可以進行統計的工具:所以我循環遍歷所有的文檔並逐個解壓縮,並檢查壓縮比。我會對文件類型進行平均處理,對於那些超出特定閾值的用戶,我將進行壓縮處理。 – LaBracca 2010-05-25 09:32:23

1

我推薦你能夠識別什麼是和不是壓縮文件類型。您可能已經理解了這一點,但我會在此咆哮:

請勿將壓縮方法雙倍化!每種壓縮方法都會添加自己的頭文件以增加文件大小,並且由於數據已經儘可能地消除了統計冗餘,因此可能無法通過其他方法進一步壓縮。以這組文件爲例:

46,494,380 level0.wav 
43,209,258 level1.wav.zip 
43,333,266 level2.wav.zip.rar 
43,339,894 level3.wav.zip.rar.gz 
43,533,989 level4.wav.zip.rar.gz.bz2 

所有這些文件包含相同的數據。

第一種壓縮方法很好地消除了冗餘,但是每個連續的壓縮方法只是添加到文件大小,更不用說後面解密文件的頭痛問題。

最好的壓縮方法通常是第一種應用。

28,259,406 level1.wav.flac   <~ using a compression method meant for the file. 
+0

謝謝你。 「刪除」wav和「壓縮」txt文件的想法非常好,在我的應用程序中它確實沒有任何意義,因爲人們主要使用pdf/Office/txt /圖像,因此所有這些壓縮與zip/rar算法。無論如何,在gerenal你的答案是非常合適的,可以用於其他用戶。在我壓縮所有內容之前,我還從我的應用程序中刪除了zip和rar文件的壓縮文件,現在我改進了這一點。 – LaBracca 2010-05-31 07:45:31

相關問題