1
我希望能夠在HDFS上存儲數百萬個小文件(二進制文件 - 圖像,exe等)(〜1Mb),我的要求基本上是能夠查詢隨機文件而不是運行MapReduce作業。 我的主要問題是Namenode內存問題,而不是MapReduce映射問題。HDFS小文件設計
所以我的選擇是:
- HAR文件 - 骨料小文件,只比他們的HAR他們節省://路徑在另一個地方
- 序列文件 - 添加他們,因爲他們進來,這更適合於MapReduce作業,所以我幾乎消滅它
- HBase的 - 保存小文件,HBase的是在幾篇文章中所描述的谷歌
我猜我阿斯金的另一個解決方案g如果有什麼我錯過了?我可以通過將二進制文件添加到大Avro/ORC/Parquet文件來實現我所需要的嗎?然後通過名稱或從Java /客戶端程序散列來查詢它們?
感謝,