我正在做一個學校的工作來分析hadoop中堆的使用。它涉及運行mapreduce程序的兩個版本來計算論壇評論長度的中位數:第一個是「記憶無意識」,reduce程序在內存中處理每個評論長度的列表;第二個是「內存意識」,reducer使用非常有效的內存數據結構來處理數據。如何看待hadoop的堆使用?
目的是使用這兩個程序來處理不同大小的數據,看內存的使用情況如何更快地上升中的第一個(直到它最終運行內存不足)。
我的問題是:我如何獲得hadoop或reduce任務的堆使用情況?
我thouth計數器「總承諾堆的使用情況(字節)」將cointain這個數據,但我已經找到了程序返回幾乎相同的值的兩個版本。
關於程序的正確性,在「內存無意識」一個內存用完了較大的輸入和失敗,而另一個不和是能夠完成。
在此先感謝
非常感謝。它工作得很好 – user2510940