Hadoop MapReduce中的排序和洗牌優化

我正在尋找一個基於Hadoop的研究/實施項目，並且我發現了在wiki頁上發佈的列表 - http://wiki.apache.org/hadoop/ProjectSuggestions。但是，這個頁面最後在2009年9月更新。所以，我不確定這些想法是否已經實施。我對「MR框架中的排序和混洗優化」特別感興趣，它談到「在混洗之前結合機架或節點上的幾個映射的結果，這可以減少搜索工作和中間存儲」。Hadoop MapReduce中的排序和洗牌優化

有沒有人試過這個？這是在當前版本的Hadoop中實現的嗎？

來源

2011-02-22 n1kh1lp

該項目描述旨在「優化」。這個特性已經存在於當前的Hadoop-MapReduce中，它可能運行的時間要少很多。聽起來像是對我有價值的增強。

來源

2011-02-23 06:58:22

還有組合功能（如http://wiki.apache.org/hadoop/HadoopMapReduce的「組合」部分中所述），這或多或少是內存中的混洗。但是我相信組合器只會集合單個映射作業的鍵值對，而不是給定節點或機架的所有對。

來源

2011-02-23 14:30:06 bajafresh4life

我認爲這是非常具有挑戰性的任務。在我的理解中，這個想法是製作一個計算樹而不是「扁平」的map-reduce。它的一個很好的例子就是Google的Dremel引擎（現在稱爲BigQuey）。我建議閱讀本文：http://sergey.melnix.com/pub/melnik_VLDB10.pdf
如果您對這種架構感興趣 - 您還可以查看該技術的開源克隆 - Open Dremel。 http://code.google.com/p/dremel/

來源

2011-02-23 16:14:13

Hadoop MapReduce中的排序和洗牌優化

回答

相關問題