我想比較1000個小文件(1-2 MB)的HDFS和本地文件系統的性能。如果不使用序列文件,與本地文件系統相比,HDFS讀取1000個文件的時間幾乎增加一倍。 我聽說過序列文件在這裏 - Small Files Problem in HDFS 我想顯示更好的響應時間爲HDFS檢索這些記錄比本地FS。序列文件會有幫助還是我應該尋找別的東西? (HBase的可能)與本地文件系統相比,將序列文件幫助提高讀取HDFS的性能?
編輯:我使用的Java程序來讀取喜歡這裏HDFS Read though Java
我不明白。正如你所說的「對於每個地圖任務」,但是這個地圖任務何時發生?如這裏給出的 - hadooptutorials.co.in/tutorials/hadoop/...簡化文件檢索中的角色映射減少是什麼?如果我從存儲所有小文件的單個序列文件中進行並行讀取(使用線程),也可以獲得更好的結果嗎? – arg21
對不起,我誤解了這個問題。我已經適當地更新了答案。 –
感謝您的快速回復。我會先嚐試序列文件解決方案,並希望得到期望的結果。我正在使用分佈式文件系統來提供高可用性和可靠性,因此不使用本地文件系統。 – arg21