最近,我讀,該算法用於從DNA數據開採最大毗連圖案的紙。提出的方法聽起來很有趣,它使用了以下的MapReduce模型。 map-> map-> reduce-> reduce。即,執行第一映射階段並將其輸出輸入到第二階段映射。第二階段圖的輸出被輸入到第一階段縮減。第一階段reduce的輸出被輸入到第二階段reduce,最後結果被刷新到HDFS中。 雖然這看起來像一個有趣的方法,但該報沒有提到他們是如何實施它的。我的問題是,你如何實現這種MapReduce鏈接?MAP-> MAP-> reduce-> reduce->最終輸出
回答
我認爲有兩種方法來對付你的情況:
整合兩家地圖的功能代碼到一個地圖的任務有兩個階段。使用與地圖相同的方法減少任務。
鴻溝地圖地圖降低,減少進度爲兩個作業:兩個地圖作爲第一個Hadoop的工作將在第二張地圖的任務類型來降低任務之後;在將第一個reduce任務轉換爲map後,兩個作爲第二個Hadoop工作減少。也許你可以使用Oozie來處理Hadoop工作流,如果提交一些hadoop作業取決於其他人。
Oozie可能是一個選項。要檢查出來。 – Ahmedov 2012-03-20 09:20:07
鏈接已死... – ManuelSchneid3r 2015-05-19 14:50:32
在Hadoop的,據我所知,你不能這樣做,因爲現在。
一種方法可以是使用ChainMapper做MAP-> MAP->減少一部分。然後,將此作業的結果發送到另一個作業,並將映射器設置爲IdentityMapper,並將縮減器設置爲您擁有的第二階段縮減器。
IdentityMapper不支持新的API,對吧?它在map()函數中使用OutputCollector – Ahmedov 2012-03-20 10:14:51
請閱讀關於TEZ。 M-> M-> R-> R->ř任何組合被有
- 1. Cipher.do最終輸出大小
- 2. For循環最終輸出
- 3. 爲什麼最終輸出「B-D」
- 4. 在jQuery中收集最終輸出
- 5. 只打印最終的odeint輸出
- 6. linux終端輸出
- 7. Git終端輸出
- 8. Matlab終端輸出
- 9. 掃描儀在給出最終輸出之前請求多個輸入
- 10. 如何使Eclipse調試輸出始終顯示最新的輸出行
- 11. 寫入流最終溢出
- 12. Python命令輸出終端
- 13. Tkinter顯示終端輸出
- 14. Python終端輸出寬度
- 15. 終止Java Midi輸出
- 16. 查詢始終輸出Probmlem
- 17. 輸出始終爲X
- 18. BeautifulSoup輸出始終爲「b」'「
- 19. 持久性終端輸出
- 20. 「freeze」終端輸出(/ dev/tty1)
- 21. CUDA輸出始終爲0
- 22. 配置Rspec終端輸出
- 23. Jenkins - 多個終端輸出
- 24. 獲取未輸入最終輸出的輸入文件的行號
- 25. Linux終端輸入/輸出C程序
- 26. 保留一些管道值最終輸出
- 27. 有問題if/else我最終有兩個輸出文件
- 28. 加密+初始化,更新,最終得到加密輸出
- 29. FFmpeg連接,沒有音頻在最終輸出
- 30. Git存檔刪除最終壓縮輸出上的.ebextensions
由於支撐。我實際上不知道如何接受一個問題:)我試圖「投票」,但coudldn't – Ahmedov 2012-03-19 10:58:28
你可以鏈接文件? – 2012-03-19 14:49:04