2013-04-27 50 views
0

在規範生豬單詞計數的例子,我很好奇的鄉親如何處理優化,其中通過字分組會導致許多(許多)元素袋的條件。Hadoop的豬 - 優化字數

例如:

A = load 'input.txt'; 
B = foreach A generate flatten(TOKENIZE((chararray)$0)) as word; 
C = group B by word; 
D = foreach C generate COUNT(B), group; 

在線c中,如果有一個字,讓我們說「」,出現1輪十億次的輸入文件,這可能會導致減速器掛了很處理時間很長。可以做些什麼來優化這個?

回答

0

在任何情況下,PIG將評估如果可以使用一個組合器,將具有一個若然。

在您的例子的情況下,顯然會引入一個組合,將每字鍵值對的數量減少到很少或只有一個在最好的情況下。所以在減速裝置,你不會每一個給定的字鍵/值的數量龐大的結束。

+0

你是正確的,最近豬的版本會自動將這些你將在解釋聲明見。雖然這將減少進入減速高發生的話鍵值對的#,在實踐中,似乎並沒有被減少那麼遠。這些熱點可能會導致單個減速器在完成其他任何事情後卡住數小時。任何其他優化? – charmquark 2013-04-28 23:39:01