2012-07-17 66 views
1

我們擁有約6000萬個壓縮格式的網頁。我們想解壓縮並分別處理這些文件。存儲HTML文件

這是我的問題!

首先,如果我將它們解壓縮到文件系統中,FS會處理這樣的文件數量。我的文件系統是ext4。 (我有4個不同的文件系統,所以我可以將它們之間的數據劃分爲每個文件系統的15 M頁)

其次,將這些文件存儲到關係數據庫中是否更好?假設清除HTML文本的所有麻煩都在將它們插入數據庫之前完成。

感謝,

回答

0

如果它們解壓到一個目錄中,你可能會超出該文件夾中最大的分配指標。如果你將它們提取到多個目錄中,你會更好。

6000萬絕對是一個相當的數額,如果你打算做任何索引或搜索數據庫將是你最好的選擇,你可以使用像lucene這樣的文件索引,這一切都取決於你想要的之後已經被提取出來了。

我目前在一個大用戶網站上有類似的問題,我解決這個問題的方法是給每個圖像一個GUID,並在GUID中的每個字節分配給不同的目錄,然後下一個字節在一個子目錄下(最多8字節),如果我的填充率上升,我會創建更多的子目錄進行補償,這也意味着我可以將其分佈在不同的網絡存儲盒中。

+0

謝謝。我認爲這是我要做的。我會把它分成不同的目錄,希望它能起作用。 – Joe 2012-07-17 17:24:13