我有一個主節點和兩個位於不同服務器的數據節點。對於這兩個數據節點,它們中的每一個在其自己的HDFS中都有一個日誌文件。現在我想運行Hadoop在主節點上執行map/reduce,輸入應該是來自兩個數據節點HDFS的兩個日誌文件。我可以這樣做嗎?如果可以,我如何設置輸入路徑? (例如hadoop jar wordcount.jar datanode1 /輸入/日誌文件1 datanode2 /輸入/日誌文件2輸出...像這樣?)是否有可能來自不同datanode的HDFS在不同服務器的輸入?來自不同服務器的Hadoop輸入
0
A
回答
1
當你說Hadoop,沒有什麼像它自己的HDFS。 HDFS是一個分佈式 FS,並且是傳播跨Hadoop集羣中所有機器作爲單個FS。
您只需將兩個文件放在一個HDFS目錄中,並將該目錄作爲輸入發送給MapReduce作業。
FileInputFormat.addInputPath(job, new Path("/path/to/the/input/directory"));
對於MapReduce作業同樣適用。雖然您將作業提交給JobTracker,但作業實際上在集羣的所有節點上以分佈式時尚運行,其中要處理的數據存在。
哦,還有一件事... HDFS中的文件並不是作爲一個整體存儲在任何特定的機器上。它被切成小塊塊 64MB(可配置),這些塊在羣集中隨機存儲在不同的機器上。
相關問題
- 1. 來自不同服務器的java.sql.Time生成的不同輸出
- 2. Hadoop MapReduce處理來自HDFS的不同輸入文件
- 3. 比較來自兩個不同服務器的查詢輸出
- 4. $ _SESSION來自不同服務器
- 5. 檢索來自不同服務器B
- 6. 來自客戶端的用戶輸入不會去服務器
- 7. SQL插入 - 來自不同的服務器和憑據
- 8. 如何檢查來自同一服務器或不同服務器的請求?
- 9. 返回來自不同服務器的相同響應
- 10. 爲來自同一服務器的不同域設置會話?
- 11. 綁定來自不同APK的服務
- 12. 來自WAP服務器的輸入流,解析部分
- 13. 來自CURL和瀏覽器的不同服務器行爲
- 14. Android服務偵聽來自服務器的傳入文字
- 15. 來自不同設備確定輸入
- 16. vSphere Powercli - 指定的權限來自不同的服務器
- 17. 連接來自不同服務器的socket.io的錯誤
- 18. 相同的代碼,不同的服務器,不同的輸出
- 19. XML文件輸入映射/減少Hadoop Windows服務器
- 20. Hadoop的Windows服務器
- 21. 編號行Cassandra-> Hadoop輸入不同
- 22. php包含來自不同服務器的文件
- 23. 來自不同MDM服務器的iPad看到更新
- 24. 是否可以比較來自不同SQL服務器的表?
- 25. 不同的響應來自.net網絡服務器使用NSUrlrequest
- 26. spring.datasource.jndi-name來自不同的ip服務器和JNDI
- 27. 網站呈現來自不同服務器的
- 28. 連接來自不同服務器的表格
- 29. c#訪問來自不同服務器的文件
- 30. MySQL。連接來自不同服務器的表
聽起來不錯。謝謝。還有一件事,如果我想用我自己的map/reduce方法運行hadoop,就像這樣:hadoop jar xxx.jar input output ... right? – user2552010
你說得對。如果您覺得您的查詢已回覆,以便其他人可以從中受益,請隨時接受答案。 – Tariq
嗨:關於Hadoop,我還有以下問題: – user2552010