通常在輸入文件中能夠部分讀取和處理Mapper功能(如在文本文件中)。是否有任何事情可以處理二進制文件(比如說圖像,序列化對象),這些文件需要所有塊在同一主機上,然後才能開始處理。Hadoop:映射二進制文件
2
A
回答
3
將您的圖像粘貼到SequenceFile中;那麼你將能夠使用map-reduce迭代地處理它們。
不太明顯:Hadoop本身並不知道任何有關文本和非文本的內容。它只有一個知道如何打開輸入流的類(hdfs將不同節點上的塊一起處理,以使它們顯示爲一個大文件)。最重要的是,您有一個Reader和一個InputFormat,它知道如何確定該流在哪裏記錄開始,結束的位置以及如何在文件中間的某處放棄下一個記錄的開頭。 TextInputFormat只是一個實現,它將換行符視爲記錄分隔符。還有一種稱爲SequenceFile的特殊格式,您可以將任意二進制記錄寫入,然後讓它們退出。使用它。
+0
現在可能希望將Avro類型轉換爲SequenceFile – rICh 2012-12-19 15:11:47
相關問題
- 1. Hadoop Streaming:映射器'包裝'二進制可執行文件
- 2. Hadoop的二進制文件
- 3. Hadoop映射進程
- 4. HBM映射圖/二進制
- 5. Hadoop - 文件到塊映射
- 6. 使用二進制數據級聯hadoop流式映射還原
- 7. 解碼二進制光柵GIS文件:垂直映射器.grd
- 8. 在C中使用內存映射讀取二進制文件
- 9. 差異文件映射和istream的二進制
- 10. 處理小文件映射減少hadoop
- 11. Hadoop:爲映射分組文件
- 12. Spark 1.6-無法在hadoop二進制路徑中找到winutils二進制文件
- 13. Hadoop遞歸映射
- 14. 如何做在java內存映射壓縮文件的二進制搜索?
- 15. ELF可執行二進制文件中不正確的分段映射
- 16. 在C中使用內存映射來讀取二進制文件
- 17. 複製二進制文件
- 18. Hadoop映射器上下文對象
- 19. Hadoop處理非常大的二進制文件
- 20. Hadoop程序無法找到安裝的二進制文件
- 21. 使用Hadoop處理大型二進制文件
- 22. Hadoop/Elastic Map Reduce使用二進制可執行文件嗎?
- 23. Can Hadoop可以讀取任意密鑰二進制文件
- 24. 將十六進制字符串解碼爲4個映射到值的二進制映射的片段
- 25. Hadoop術語映射到硬件
- 26. Hadoop的流單映射
- 27. Hadoop的許多映射器
- 28. hadoop過濾映射輸出
- 29. Hadoop未找到映射類
- 30. Hadoop幾個映射器
你有點兒問這個問題。我在上一個問題中發佈的答案在某種程度上解決了這個問題:http://stackoverflow.com/questions/3012121/hadoop-processing-large-serialized-objects – 2010-06-15 14:51:44