假設每個文件有150 MB。現在,當我將這些文件放入hdfs(塊大小爲64 MB)時,每個文件和塊的數量將會是多少。 還有多少個分割將用於所有文件。和多少個mappers對於每個150 MB的5個文件,hdfs中將會有多少個塊
回答
每個文件將會有3 blocks
(64mb,64mb,32mb)。塊5*3 = 15
的總所以號這樣分割的號將是15.因此,沒有映射器(如果使用FileInputFormat
)= 15。
說明:
HDFS不採取整個塊存儲大小爲<塊的文件 大小。我們可以考慮一個例子,假設HDFS塊大小= 64MB。我們 有一些文件來存儲具有大小= 10MB,那麼名字節點將 信息:·搜索可用塊
·客戶端會寫日期進去
·作家關閉後,它被認爲是該文件被關閉 寫入。即創建文件的大小爲10MB
·然後該塊中有53MB可用。這將是 釋放並添加到可用空間。
·因此這個文件的塊僅佔10MB(塊調整 會發生)
您的文件存儲在hdfs中。
1file =100mb
block size=64mb
so 1 file split in 2 block
。
你有5files
5*2=10blocks.
1映射每分裂所以
10blocks=10mapper
請確認,在你的問題標題文件大小爲150MB,但問題是100MB。它將與上面的相同。
你的意思是每100MB的文件將有64MB的一個塊和36 MB的一個?實際上我很困惑,它會追加其他文件數據在第一個文件,其中包含36 MB數據的同一個塊 – 2014-11-21 13:27:26
它不會追加,將創建新的block.see這個博客 - http://blog.cloudera.com/blog/2009/02/the-small-files-problem/ – 2014-11-21 13:33:23
- 1. 在Linux中,每個文件系統有多少個超級塊?
- 2. mysql - 對於每個MODEL數據庫中有多少個PIECES?
- 3. 對於N的每個值,打印N個因子中有多少個數字
- 4. Python3:嘗試讀取文件夾中的每個文件,並計算每個文件中有多少個\ n
- 5. 無法將大於100 MB的文件加載到HDFS中
- 6. 多個文件流hdfs
- 7. 行數對於多個文件上的每個對象
- 8. 對於單個佈局XML文件,有多少ViewStubs太多?
- 9. asp.net對於每個中對於每個
- 10. 每個AppDomain允許擁有多少個app.config文件?
- 11. 每個inode有多少個字節?
- 12. MySQL:獲取每個日期的每個id有多少個entrys?
- 13. 現代文件系統爲每個塊組保留多少?
- 14. 對於MPI主機文件,有多少個插槽
- 15. 找出多少字出現在所有的5個文件
- 16. 每個文件有多個模塊 - RequireJS和Backbone
- 17. 在Hadoop HDFS中,一個1GB文件需要存儲多少個數據節點?
- 18. 統計一個文件夾中有多少個文件
- 19. 單個html文件或javascript文件中有多少個document.ready?
- 20. html中有多少個塊元素?
- 21. 對於一個類,有多少個靜態方法太多?
- 22. Oracle SQL:對於每個班級,列出每個專業中有多少個學生
- 23. 對於每一列有多個插入
- 24. xsl文件中的每個循環中有多個條件
- 25. 將150個csv文件導入到一個數據源中
- 26. 對於Java中的特定上下文中的每個塊
- 27. JVM中有多少個對象太多?
- 28. 每個CPU內核有多少管道?每個人都有
- 29. Plupload文件錯誤5 MB
- 30. TinyMCE:用於將多個類應用於文本塊的插件
我可以通過發佈一個指向[官方文檔]的鏈接來改進這個答案(https://wiki.apache.org/hadoop/FAQ#If_a_block_size_of_64MB_is_used_and_a_file_is_written_that_uses_less_than_64MB.2C_will_64MB_of_disk_space_be_consumed。 3F) – 2015-11-18 10:29:50