0
我有一個巨大的文件,每行有兩列,按標籤分隔。通過與其他文件進行比較來篩選pig中的tsv文件
我有另一個文件,它有一個值的列表,每行一個。
現在我想過濾第一個文件,這樣我就可以得到第一列出現在第二個文件中的所有行。
如何在豬身上做到這一點?
我有一個巨大的文件,每行有兩列,按標籤分隔。通過與其他文件進行比較來篩選pig中的tsv文件
我有另一個文件,它有一個值的列表,每行一個。
現在我想過濾第一個文件,這樣我就可以得到第一列出現在第二個文件中的所有行。
如何在豬身上做到這一點?
您可以使用內連接:
A = LOAD 'file1' USING PigStorage('\t') AS (f1:int, f2:int);
B = LOAD 'file2' USING PigStorage(',') AS (f3:int);
C = JOIN A BY f1, B BY f3;
DUMP C;