2011-02-22 56 views
1

我正在尋找一個基於Hadoop的研究/實施項目,並且我發現了在wiki頁上發佈的列表 - http://wiki.apache.org/hadoop/ProjectSuggestions。但是,這個頁面最後在2009年9月更新。所以,我不確定這些想法是否已經實施。我對「MR框架中的排序和混洗優化」特別感興趣,它談到「在混洗之前結合機架或節點上的幾個映射的結果,這可以減少搜索工作和中間存儲」。Hadoop MapReduce中的排序和洗牌優化

有沒有人試過這個?這是在當前版本的Hadoop中實現的嗎?

回答

1

該項目描述旨在「優化」。 這個特性已經存在於當前的Hadoop-MapReduce中,它可能運行的時間要少很多。 聽起來像是對我有價值的增強。

1

我認爲這是非常具有挑戰性的任務。在我的理解中,這個想法是製作一個計算樹而不是「扁平」的map-reduce。它的一個很好的例子就是Google的Dremel引擎(現在稱爲BigQuey)。我建議閱讀本文:http://sergey.melnix.com/pub/melnik_VLDB10.pdf
如果您對這種架構感興趣 - 您還可以查看該技術的開源克隆 - Open Dremel。 http://code.google.com/p/dremel/