2013-02-11 52 views
0

我目前正在解決一個問題,以解決池中NameNode for Data檢查的Oozie協調器問題。作爲一個案例研究,我開始知道雅虎每天運行超過15000個工作。所以如果大部分工作都是數據依賴的,那麼這將成爲NameNode的開銷。我目前正在研究具有3-4節點的集羣,基本上是我們自己的筆記本電腦。但我的教授問我如何能夠如此大規模地驗證我的作品。我必須向他提供一些分析來證明我的解決方案將在這個規模上發揮作用。請給我建議一些做同樣的選擇?如何驗證我在Hadoop上的任何工作?

回答

1

可以使用Mumak來模擬Hadoop集羣。 Mumak的代碼是在0.21版本中的there,而不是在主幹中。這是一個貢獻模塊,所以在Mumak周圍沒有太多積極的工作或文檔。同樣的,這裏是JIRA。另外,請看Ankus項目,它參考了mrsimmrperf

這是一個現在不太重視的領域。但是,對於有人做一些研究並獲得一些代碼,這將是一個不錯的話題。