2010-02-10 63 views
4

這個問題沒有一個「正確的」答案。地圖減少TB數據的算法?

我有興趣在數據量爲TB的數據集上運行Map Reduce算法。

我想了解更多關於所述算法的運行時間。

我應該讀什麼書?

我對設置Map Reduce羣集或運行標準算法不感興趣。我需要嚴格的理論處理或運行時間。

編輯:問題不是那個地圖減少運行時間的變化。問題是 - 大多數算法不能很好地分配映射減少框架。我對在map reduce框架上運行的算法感興趣。

回答

4

從技術上講,與「標準」算法相比,MapReduce的運行時分析沒有真正的不同 - MapReduce仍然是一個算法,就像任何其他算法一樣(或者具體而言,是一個算法,它以多個步驟發生,這些步驟之間的交互)。

MapReduce作業的運行時間仍然會按照常規算法分析預測的方式進行擴展,這是因爲您需要跨多臺機器進行任務分工,然後查找每個步驟所需的最大單個機器時間。

也就是說,如果你有一個任務需要M個map操作,而R reduce操作在N臺機器上運行,並且你期望平均map操作需要m個時間,平均縮減操作時間,那麼你將有一個預期的運行時間來完成所有有關任務。

M,R,m和r值的預測值都可以通過正常分析插入MapReduce的任何算法來完成。

1

只有兩本書,我知道的已公佈,但更多的作品有:

Pro hadoopHadoop: The Definitive Guide

其中,臨Hadoop是更多的是初學者的書,而權威指南適用於那些知道Hadoop究竟是什麼的人。

我擁有權威指南並認爲它是一本優秀的書。它提供了有關HDFS如何工作的良好技術細節,並涵蓋了一系列相關主題,如MapReduce,Pig,Hive,HBase等。還應該注意的是,本書由Tom White編寫,他曾參與過開發Hadoop很好,現在在cloudera工作。

就Hadoop算法的分析而言,您可以查看TeraByte排序基準。雅虎已經完成了Hadoop在這個特定基準測試中的表現:TeraByte Sort on Apache Hadoop。這篇論文寫於2008年。

有關2009年結果的更多細節可以在here找到。