2013-02-02 28 views
0

我想設置一種存檔服務。我的想法是,我發送一個文檔(幾十KB的HTML)到服務,它發回我一個簡短的標識符,以後我可以使用標識符來檢索文檔。許多文件將非常相似,對於任何一個文件,可能有1000個與其重疊95%的其他文件。因此,每次我發送一份文檔時,歸檔服務都應該嘗試找到一個相似的文檔,並存儲差異。大量類似文檔的存檔服務

是否存在這樣的系統?如果可能的話,我更喜歡PHP/MySQL。

回答

0

從你的用例中想起CouchDB。閱讀他們如何將文檔存儲爲JSON以及他們如何修改文檔(存儲在_rev字段中)。

http://guide.couchdb.org/draft/documents.html

它不會爲你做比較,但是。這個責任會落到你身上,只需一個簡單的CouchDB實現,但它確實能很好地處理你的版本。

不幸的是,我不知道任何現成的數據庫比較文件,然後發現相似的東西,並取代它們。