HDFS小文件設計

2017-09-01 72 views 1 likes

我希望能夠在HDFS上存儲數百萬個小文件（二進制文件 - 圖像，exe等）（〜1Mb），我的要求基本上是能夠查詢隨機文件而不是運行MapReduce作業。我的主要問題是Namenode內存問題，而不是MapReduce映射問題。HDFS小文件設計

所以我的選擇是：

HAR文件 - 骨料小文件，只比他們的HAR他們節省：//路徑在另一個地方
序列文件 - 添加他們，因爲他們進來，這更適合於MapReduce作業，所以我幾乎消滅它
HBase的 - 保存小文件，HBase的是在幾篇文章中所描述的谷歌

我猜我阿斯金的另一個解決方案g如果有什麼我錯過了？我可以通過將二進制文件添加到大Avro/ORC/Parquet文件來實現我所需要的嗎？然後通過名稱或從Java /客戶端程序散列來查詢它們？

感謝，

來源

2017-09-01 user1358729

回答

如果追加多個文件到大文件，那麼你就需要保持其大文件的每個小文件駐留在這基本上是什麼HBase的會爲你做一個索引。它將數據合併到大文件中，將它們存儲在HDFS中，並使用鍵上的排序來支持快速隨機訪問。在我看來，Hbase會滿足您的需求，如果您自己手動推出某些內容，那麼最終可能會重做許多Hbase已經完成的工作。

來源

2017-09-01 17:05:00 jeff

相關問題

11. hadoop RC文件格式：合併hdfs中的小文件
12. HDFS塊大小vs實際文件大小
13. 處理HDFS文件
14. Hdfs文件權限
15. HDFS文件比較
16. Android的設計小部件
17. Kafka-connect-hdfs：微小的文件和rotate.interval設置之間的區別
18. HDFS（序列文件）中的單個大文件或多個小文件？
19. HDFS數據統計
20. 在小文件大小的情況下HDFS塊大小會發生什麼
21. 內部HDFS文件壓縮
22. HDFS上的文件塊
23. 開幕HDFS文件夾
24. hdfs中的文件路徑
25. IOException寫入文件到Hdfs
26. 從eclipse訪問HDFS文件
27. 何處上傳hdfs文件？
28. 從HDFS傳輸文件
29. 覆寫HDFS文件/目錄
30. 生成HDFS序列文件