從我的map/reduce輸出的值是一個可寫的數組,它寫在輸出文件part-00000中(hadoop默認是這樣做的)。我需要這個數組用於我的下一個映射函數,所以我想將這個數組保存在分佈式緩存中。可以告訴我如何從輸出文件(part-00000)讀取哪些文件可能不是文本文件並存儲在分佈式緩存中。hadoop,map/reduce輸出文件(part-00000)和分佈式緩存
1
A
回答
1
我的建議:
創建一個新的Hadoop工作具有以下屬性:
- 輸入與所有的部分-...文件的目錄。
- 創建寫入分佈式緩存的自定義OutputFormat類。
現在,讓您的工作基本上看有這樣的事情:
conf.setInputFormat(SequenceFileInputFormat.class); conf.setMapperClass(IdentityMapper.class); conf.setReducerClass(IdentityReducer.class); conf.setOutputFormat(DistributedCacheOutputFormat.class);
看一看雅虎的Hadoop教程,因爲它在這一點上的一些例子:http://developer.yahoo.com/hadoop/tutorial/module5.html#outputformat
HTH
+0
感謝您的解釋,但我需要更詳細地描述自定義輸出格式以寫入分佈式緩存 – 2010-07-09 06:21:06
+0
我假設您的分佈式緩存軟件允許您編寫客戶端來將值放入其中。現在以雅虎爲例,填寫「void write(K key,V value)」方法,並調用分佈式緩存軟件的API。 – 2010-07-09 13:55:47
相關問題
- 1. hadoop豬mapreduce分佈式緩存文件
- 2. 閱讀許多文件hadoop mapreduce分佈式緩存
- 3. 分佈式緩存文件Hadoop
- 4. Hadoop分佈式緩存 - 修改文件
- 5. 的MapReduce分佈式緩存
- 6. hadoop分佈式緩存
- 7. Hadoop分佈式緩存
- 8. 分佈式緩存和性能Hadoop
- 9. 更新Hadoop中分佈式緩存中的緩存文件
- 10. 分佈式緩存/文件和單個節點Hadoop
- 11. Hadoop的分佈式緩存文件程序不會生成輸出
- 12. hadoop mapreduce中單獨的輸出文件
- 13. Hadoop分佈式緩存處理大查找文本文件
- 14. hadoop mapreduce流式傳輸中的多文件輸出
- 15. 新手Hadoop的..分佈式緩存
- 16. Hadoop分佈式緩存不起作用
- 17. Hadoop 1.0.4分佈式緩存錯誤
- 18. 無法從分佈式緩存的Hadoop
- 19. FileNotFound嘗試在hadoop分佈式緩存中存儲文件時出現異常
- 20. 使用elastic-mapreduce將文件加載到EMR分佈式緩存中時出錯
- 21. 從Hadoop分佈式緩存中讀取文件時FileNotFoundExcepton
- 22. 將多個文件添加到Hadoop分佈式緩存?
- 23. 在Hadoop分佈式緩存中重用文件
- 24. 訪問hadoop分佈式緩存中的文件
- 25. Hadoop - 分佈式緩存中的大文件
- 26. 在hadoop的分佈式緩存中更新文件
- 27. Hadoop分佈式緩存:文件未發現異常
- 28. 未找到Hadoop文件中的分佈式緩存異常
- 29. 分佈式緩存Hadoop不檢索文件內容
- 30. 在Hadoop分佈式緩存中創建並放置文件
一般來說,Hadoop將會輸出一個包含許多part -...文件的目錄。你不能假設你有一個單一的輸出文件。 – 2010-07-08 08:33:00