0
在規範生豬單詞計數的例子,我很好奇的鄉親如何處理優化,其中通過字分組會導致許多(許多)元素袋的條件。Hadoop的豬 - 優化字數
例如:
A = load 'input.txt';
B = foreach A generate flatten(TOKENIZE((chararray)$0)) as word;
C = group B by word;
D = foreach C generate COUNT(B), group;
在線c中,如果有一個字,讓我們說「」,出現1輪十億次的輸入文件,這可能會導致減速器掛了很處理時間很長。可以做些什麼來優化這個?
你是正確的,最近豬的版本會自動將這些你將在解釋聲明見。雖然這將減少進入減速高發生的話鍵值對的#,在實踐中,似乎並沒有被減少那麼遠。這些熱點可能會導致單個減速器在完成其他任何事情後卡住數小時。任何其他優化? – charmquark 2013-04-28 23:39:01