估算僞分佈式節點上的Hadoop可伸縮性性能？

是否有任何工具，軟件包或方法可用於僅使用僞分佈式體系結構的單臺計算機來估計/模擬Hadoop的可伸縮性性能？這樣的系統將需要根據在仿真中不相互干擾的作業（例如，阻塞的I/O）進行準確的估計。估算僞分佈式節點上的Hadoop可伸縮性性能？

在我看來，這是如何工作的，我會按順序運行我所有的地圖/縮減作業，並使用一些度量來估計系統的縮放效果（例如，花時間最長的地圖作業並估計運行時間將會受到瓶頸）。

此外，我有多個地圖/縮減作業，它們被鏈接在一起形成輸出。

2012-02-13 Gate

可擴展性和一臺機器。找到錯誤。 – 2012-02-13 16:13:14

不知道你是否只是閱讀了標題，或者如果我不夠明確...澄清，我實際上並不期望它運行得更快（聽起來很荒謬！），只是爲了試驗問題已被破壞的程度通過模擬或估計進入子問題。 – Gate 2012-02-13 16:29:15

我認爲這在很大程度上取決於你的工作性質。讓我們嘗試舉幾個例子：
1.您的工作有大量的輸入格式和映射器處理，並將最少的數據傳遞給reducer。在這種情況下，我估計僞分佈式集羣將真實反映真實的集羣性能（每個插槽），並且您可以假設5個節點集羣將具有約x5的性能。我建議把足夠的數據放在工作時間至少需要5-10倍的工作啓動時間。如果您有足夠的分割來確保處理期間的數據局部性，則此估計會更好。
如果你打算有很多相對較小的文件 - 放在你的測試中足夠模擬每個任務的開銷。 2.您在Hadoop分佈式排序功能（混洗）上大量傳播。它在一個節點和真實羣集中的性能可能會有很大的不同，並且這個因素很難估計。
我可以總結出mapper的吞吐量，並且在某種程度上，可以從上面估計的每個插槽的MB /秒數減少。真正的集羣可能沒有更好的性能每個插槽。

來源

2012-02-13 23:33:08

估算僞分佈式節點上的Hadoop可伸縮性性能？

回答

相關問題