2013-08-18 50 views
0

在豬中,我有兩個袋子。袋A的尺寸爲〜200GB,袋B的尺寸爲〜600GB。他們有相同的模式。我如何從袋子B中取出袋子A中的所有元組?我看了一下Pig的DIFF udf,但在記憶中同時放入兩個包並不現實。鑑於袋A和B,刪除A中包含的所有元組B

回答

2

這裏有一個解決方案:

C = COGROUP A BY *, B BY *; 
C_FILT = FILTER C BY NOT IsEmpty(A) AND IsEmpty(B); 
OUT = FOREACH C_FILT GENERATE FLATTEN(A); 
相關問題