2015-08-26 83 views
0

我解析了整個英文wikipedia,並將每個解析的文章保存在單獨的協議緩衝區文件中。每個文件都有一個唯一的ID(wikiid)。我現在有470萬個解析文章,總大小爲180GB。我知道ext4可以處理這個數量的文件,但這是一個很好的做法嗎?或者我應該使用數據庫?我不需要經常更新它。存儲470萬個二進制文件的最佳方法

+0

由於你 - 據推測 - 已經有180GB的470萬個文件;它出什麼問題了? (FWIW,這使得平均文章/文件〜40k。) – user2864740

回答

2

將它作爲文件保存 - 數據庫的縮放和維護相對昂貴。 儘管您可能需要小心如何命名/存儲它們 - 佔用一個包含所有4.7M文件的目錄 - 具有4級目錄結構。預處理4.7 M文件以存儲在目錄結構中。說一個文件的ID爲D1D2D3d4fewmorechars.txt - 所以現在將此文件存儲在/D1/D2/D3/D4/D1D2D3D4fewmorechars.txt中。

或者其他選項是使用文件系統,如XFS,ext3/4 - 使用目錄索引技術,如哈希目錄。 檢查此鏈接 - https://serverfault.com/questions/43133/filesystem-large-number-of-files-in-a-single-directory

相關問題