我想用壓縮文本文件(CSV)存儲網頁。爲了實現最佳壓縮,我想提供一組1000個網頁。然後,圖書館應該花一些時間爲這些內容創建最佳的「字典」。一個明顯的「字典」條目可以是<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
,它可以存儲爲%1或類似的東西,因爲它幾乎存在於所有的網頁上。通過像這樣創建一個自定義字典,在我的情況下壓縮率應該是99%。用於壓縮文本數據並將其作爲文本存儲的庫
我的問題是,是否存在一個用於執行此操作的庫,存在於具有MIT或類似自由許可證的Windows上?如果沒有,你會推薦任何通用壓縮庫。我已經嘗試了一下zlib,但它輸出二進制數據。如果我將這個二進制數據轉換爲文本,我擔心結果可能會比原始文本更長。
編輯:我需要能夠將文本存儲在CSV文件中,並且仍然能夠將它們導入到數據庫甚至Excel中。 「
什麼是編程語言? Google for Huffman壓縮庫。看看[libhuffman](http://huffman.sourceforge.net/) – sled 2011-03-07 13:19:04
我正在尋找一個DLL,所以我猜它應該用C++或類似的語言編寫。 – David 2011-03-07 13:30:13
我已經Google搜索了一遍,沒有找到這樣的DLL,除了用於教育目的的圖書館。 – David 2011-03-07 19:06:11