2010-06-02 24 views
4

我們現在需要依法對我們公司的所有財務文檔進行數字化處理,並將其每3個月提交給評估。壓縮數字化文檔圖像

由於這是敏感數據,我們決定將問題交到我們自己的手中,並構建某種數字數據歸檔器。該工具完美工作,但經過7個月的使用後,我們開始擔心這些映像使用的磁盤空間。

這裏上的文件量的一些信息數字化:掃描並每天存檔

  • 15K的文件,用+最終PNG大小 - 860KB:15 000 * 860千比特= 1.53779984千兆
  • 30天每月的工作:1.53779984千兆字節* 30 = 46.1339952千兆1年
  • 後磁盤空間使用情況的展望:46.1339952千兆字節* 12 = 553.607942千兆

小號遠遠我們使用了424千兆字節的磁盤空間,沒有計算備份。我們使用PNG作爲圖像格式,但是我想知道是否有人對圖像採用更好的壓縮算法或壓縮PNG的替代策略提供更多甚至更好的方法來存檔圖像以節省磁盤空間。

任何幫助,將不勝感激,謝謝。

回答

3

DjVu這個比較新的格式可以更好,它是專門爲壓縮掃描文檔而設計的。它適用於黑白,灰度和彩色文檔。它將前景/背景分離與複雜的小波壓縮方案相結合。如果您獲得商業版本,我相信您也可以獲得您的文檔OCR'd,以便搜索它們,但有一個完全開放源代碼版本,稱爲DjVuLibre

+0

什麼是討厭的網站!所有的詳細文檔都是djvu格式。有人需要2x4的頭部。 – ergosys 2010-06-03 03:15:42

2

推測這些文件不需要全部在線不斷。如果是這種情況,從您提供的信息中,我看不出有什麼理由需要改變您的工作流程。

PNG是一種廣泛支持的無損(zlib)壓縮格式,我猜你正在使用它。如果你不需要無損壓縮,好的ole JPEG會以較小的質量損失爲代價提供更緊的壓縮,只要你適當地調整壓縮比。根據您的軟件堆棧,JPEG2000可能是另一種選擇。 LZW壓縮的TIFF與PNG相比沒有什麼優勢,除了每像素16位支持以外,您可能不需要這些支持。其他選項包括專有專業編解碼器(如MrSID)​​,以極高的價格提供非常好的超大文件壓縮。

由於這些都是掃描文檔,我想我會認爲PDF是「自然」格式,在其中進行編碼。 PDF根據文件的內容提供各種壓縮選項。但我不會竭盡全力解決一些未被破解的東西。

如果您現在想到您在硬盤空間上花費了多少錢,那麼每天1.5 GB是沒有用的。驅動器空間便宜並且不斷變得更便宜。只需每6個月購買三個新的1 TB USB驅動器(主/備份/非現場備份),總成本爲240美元或任何其他。即使磁帶備份也不是不合理的。

0

500 Gb每年並不多,而硬盤每年越來越便宜