2012-11-15 40 views
0

我有一個巨大的文件,每行有兩列,按標籤分隔。通過與其他文件進行比較來篩選pig中的tsv文件

我有另一個文件,它有一個值的列表,每行一個。

現在我想過濾第一個文件,這樣我就可以得到第一列出現在第二個文件中的所有行。

如何在豬身上做到這一點?

回答

2

您可以使用內連接:

A = LOAD 'file1' USING PigStorage('\t') AS (f1:int, f2:int); 
B = LOAD 'file2' USING PigStorage(',') AS (f3:int); 

C = JOIN A BY f1, B BY f3; 
DUMP C; 
相關問題