2013-06-03 93 views
1

我正在評估運行~20節點Hadoop集羣的EC2/EMR。 (custom JAR集羣)。我在單節點3.3 GHz 2GB RAM本地VMWare實例上運行簡單的WordCount示例,只需不到10秒即可完成。 WordCount示例需要3分鐘才能在EMR上完成,其中2個c1.mediumm實例(不包括啓動時間3-5分鐘)。同時爲2個m1.small實例。在EMR上運行工作會有一些開銷,也許這個問題的規模太小,所以這似乎是可以理解的。Elastic MapReduce(EMR)的縮放比例?

在您看到什麼尺寸問題後,您會發現雲的性能優勢?或者大約有多少個節點或計算單元?

回答

2

如果您正在輪換一項EMR工作,這基本上意味着您要求亞馬遜爲您提供N臺機器的按需集羣,而配置和爲您提供這些機器的簡單事實很容易需要幾分鐘時間,更不用說這些機器需要安裝,可以有引導動作,等等。我很少看到EMR作業(甚至是大型作業)需要10分鐘以上才能完成集羣準備,但我很少看到在幾分鐘內集羣就會出現。

如果你有一個頻繁運行的工作(例如每小時),那麼設置和關閉EMR集羣的成本可能太大,在這種情況下,創建一個好主意您的集羣在EC2上有一些保留實例。通過保留的實例,您將擁有自己的集羣,並由您進行管理,因此您無需花時間設置/關閉集羣,這就像常規的Hadoop集羣一樣。

過去幾年中我一直在做的工作是在保留實例上使用EC2集羣,這些集羣始終處於運行狀態,並且所有作業都在其上運行,但對於一些非常大而且不適合的作業在我的集羣上,我在EMR上運行它們,在那裏我可以選擇我想要的節點數量,因爲這些是大型作業,與總運行時間相比,設置/關閉集羣的時間很短。我不建議將EMR用於小型/頻繁工作。