Hadoop的豬 - 優化字數

在規範生豬單詞計數的例子，我很好奇的鄉親如何處理優化，其中通過字分組會導致許多（許多）元素袋的條件。Hadoop的豬 - 優化字數

例如：

A = load 'input.txt'; 
B = foreach A generate flatten(TOKENIZE((chararray)$0)) as word; 
C = group B by word; 
D = foreach C generate COUNT(B), group;

在線c中，如果有一個字，讓我們說「」，出現1輪十億次的輸入文件，這可能會導致減速器掛了很處理時間很長。可以做些什麼來優化這個？

來源

2013-04-27 charmquark

在任何情況下，PIG將評估如果可以使用一個組合器，將具有一個若然。

在您的例子的情況下，顯然會引入一個組合，將每字鍵值對的數量減少到很少或只有一個在最好的情況下。所以在減速裝置，你不會每一個給定的字鍵/值的數量龐大的結束。

來源

2013-04-27 05:53:56 Rags

你是正確的，最近豬的版本會自動將這些你將在解釋聲明見。雖然這將減少進入減速高發生的話鍵值對的＃，在實踐中，似乎並沒有被減少那麼遠。這些熱點可能會導致單個減速器在完成其他任何事情後卡住數小時。任何其他優化？ – charmquark 2013-04-28 23:39:01

Hadoop的豬 - 優化字數

回答

相關問題