0
在豬中,我有兩個袋子。袋A的尺寸爲〜200GB,袋B的尺寸爲〜600GB。他們有相同的模式。我如何從袋子B中取出袋子A中的所有元組?我看了一下Pig的DIFF udf,但在記憶中同時放入兩個包並不現實。鑑於袋A和B,刪除A中包含的所有元組B
在豬中,我有兩個袋子。袋A的尺寸爲〜200GB,袋B的尺寸爲〜600GB。他們有相同的模式。我如何從袋子B中取出袋子A中的所有元組?我看了一下Pig的DIFF udf,但在記憶中同時放入兩個包並不現實。鑑於袋A和B,刪除A中包含的所有元組B
這裏有一個解決方案:
C = COGROUP A BY *, B BY *;
C_FILT = FILTER C BY NOT IsEmpty(A) AND IsEmpty(B);
OUT = FOREACH C_FILT GENERATE FLATTEN(A);