0
我目前正在解決一個問題,以解決池中NameNode for Data檢查的Oozie協調器問題。作爲一個案例研究,我開始知道雅虎每天運行超過15000個工作。所以如果大部分工作都是數據依賴的,那麼這將成爲NameNode的開銷。我目前正在研究具有3-4節點的集羣,基本上是我們自己的筆記本電腦。但我的教授問我如何能夠如此大規模地驗證我的作品。我必須向他提供一些分析來證明我的解決方案將在這個規模上發揮作用。請給我建議一些做同樣的選擇?如何驗證我在Hadoop上的任何工作?