2012-08-27 50 views
2

我有一張表A,其中包含一個列表B,其中包含A中的項目的子列表。如何得到一張表C其中包含一個列表,它是在A的補充?在Pig中,查找表格中條目的補充

我知道如何在sql中完成它。我不知道如何在豬身上接近它。

謝謝。

+0

你能舉個例子來看看你的數據工會? – mark

回答

2

在PIG話,有兩種 「袋」 A和B,其中B是A.

若B只包含所述的值的子集,可以做C = DIFF(A,B)。 但是,考慮到DIFF會刪除重複項,所以您將得到A中B的補碼減少爲唯一值。

一般來說,DIFF同時提供B在A有B.

補充並且A的
+0

另一種方法:在C中存儲A和B的外部JOIN。C中的空值(在B列中)指示哪些條目不在B中! – Navneet

+0

然後我誤解了你的情況:在這裏加入A和B意味着你的兩個表分開加載,使用兩個不同的LOAD語句。我以爲他們是兩個相連的包。我的錯。 – decitre

+0

不,沒關係。我們可以使用聯合分組將它們放到同一個表中。您上面的建議是可以的! – Navneet