2012-02-13 41 views
1

是否有任何工具,軟件包或方法可用於僅使用僞分佈式體系結構的單臺計算機來估計/模擬Hadoop的可伸縮性性能?這樣的系統將需要根據在仿真中不相互干擾的作業(例如,阻塞的I/O)進行準確的估計。估算僞分佈式節點上的Hadoop可伸縮性性能?

在我看來,這是如何工作的,我會按順序運行我所有的地圖/縮減作業,並使用一些度量來估計系統的縮放效果(例如,花時間最長的地圖作業並估計運行時間將會受到瓶頸)。

此外,我有多個地圖/縮減作業,它們被鏈接在一起形成輸出。

+0

可擴展性和一臺機器。找到錯誤。 – 2012-02-13 16:13:14

+0

不知道你是否只是閱讀了標題,或者如果我不夠明確...澄清,我實際上並不期望它運行得更快(聽起來很荒謬!),只是爲了試驗問題已被破壞的程度通過模擬或估計進入子問題。 – Gate 2012-02-13 16:29:15

回答

0

我認爲這在很大程度上取決於你的工作性質。讓我們嘗試舉幾個例子:
1.您的工作有大量的輸入格式和映射器處理,並將最少的數據傳遞給reducer。在這種情況下,我估計僞分佈式集羣將真實反映真實的集羣性能(每個插槽),並且您可以假設5個節點集羣將具有約x5的性能。我建議把足夠的數據放在工作時間至少需要5-10倍的工作啓動時間。如果您有足夠的分割來確保處理期間的數據局部性,則此估計會更好。
如果你打算有很多相對較小的文件 - 放在你的測試中足夠模擬每個任務的開銷。 2.您在Hadoop分佈式排序功能(混洗)上大量傳播。它在一個節點和真實羣集中的性能可能會有很大的不同,並且這個因素很難估計。
我可以總結出mapper的吞吐量,並且在某種程度上,可以從上面估計的每個插槽的MB /秒數減少。真正的集羣可能沒有更好的性能每個插槽。