我有一臺hadoop集羣,有兩臺電腦,一臺作爲主設備,另一臺作爲從設備。我的輸入數據出現在Master的本地磁盤上,並且我還將輸入數據文件複製到HDFS系統中。現在我的問題是,如果我在這個集羣上運行MapReduce任務,那麼整個輸入文件只出現在一個系統上[我認爲這與MapReduce的「Data Locality」的基本原理相反]。我想知道是否有任何機制來分發/分區初始文件,以便輸入文件可以分佈在羣集的不同節點上。如何將初始輸入文件分發給Hadoop MapReduce中的節點?
0
A
回答
0
假設你的集羣由節點1和節點2組成。如果節點1是主節點,那麼在該節點上沒有運行Datanode。所以你在節點2上只有一個Datanode,所以當你說"so that the input files can be distributed on the different nodes of the cluster"
時,我不確定你的意思,因爲用你當前的設置,你只有一個節點可以存儲數據。
但是如果您考慮一個通用的n節點集羣,那麼如果您將數據複製到HDFS中,則數據通過hadoop本身分佈到集羣的不同節點上,因此您不必擔心這一點。
相關問題
- 1. 爲什麼hadoop不會將文件分發給所有節點?
- 2. 如何將輸入文件劃分爲MapReduce的分片/文件
- 3. 的Hadoop MapReduce的多個輸入文件
- 4. 將MapReduce作業的部分0000文件命名爲hadoop中的輸入文件
- 5. Hadoop MapReduce多輸入
- 6. hadoop mapreduce中單獨的輸出文件
- 7. 如何將hadoop mapreduce的輸出作爲restful api的輸入?
- 8. 關於gz文件作爲hadoop mapreduce作業輸入的輸入
- 9. 將Hadoop MapReduce輸出寫入2個平面文件
- 10. Hadoop如何在多個數據節點上分發數據和mapreduce任務
- 11. 如何將Hadoop MapReduce與HDFS分開?
- 12. Hadoop MapReduce - 每個輸入的一個輸出文件
- 13. Hadoop:如何將任務均勻分配給所有節點
- 14. 如何將hadoop mapreduce導入到eclipse中進行開發
- 15. 讀取hadoop mapreduce中的2個輸入文件
- 16. hadoop如何讀取輸入文件?
- 17. Hadoop MapReduce中Mapper的最大輸入文件大小(無分割)是多少?
- 18. 輸入分配Hadoop中
- 19. 如何開始使用Hadoop的MapReduce?
- 20. 的Hadoop MapReduce的工作輸入文件ClassNotFound的
- 21. Hadoop,MapReduce - 多輸入/輸出路徑
- 22. Mapper類如何將SequenceFile標識爲hadoop中的輸入文件?
- 23. Hadoop MapReduce:讀取文件並將其用作輸入來過濾其他文件
- 24. hadoop豬mapreduce分佈式緩存文件
- 25. Hadoop MapReduce:適當的輸入文件大小?
- 26. Python MapReduce需要3個輸入文件的Hadoop Streaming Job?
- 27. Hadoop MapReduce處理來自HDFS的不同輸入文件
- 28. 如何格式化Mapreduce在Hadoop中寫入的輸出
- 29. 爲什麼mapreduce將壓縮文件拆分爲輸入拆分?
- 30. Mapreduce Hadoop的PDF輸入格式
爲什麼你需要用2臺電腦擔心這個問題?爲什麼你應該爲此擔心,讓Hadoop處理數據的複製。 –
如果你的複製因子大於2,你的文件實際上完全存在於兩臺機器上。 – climbage
@climbage,但他的一個節點是主節點,所以它不會運行datanode – Chaos