1
我在HDFS文件/pigmix.txt
其中有文件的不同格式的名單像.PDF
,.DOC
,.PPT
等。我只想.PDF
過濾。我怎樣才能使用Apache的豬過濾器功能呢?如何使用Apache豬過濾器來查找「.PDF」
我在HDFS文件/pigmix.txt
其中有文件的不同格式的名單像.PDF
,.DOC
,.PPT
等。我只想.PDF
過濾。我怎樣才能使用Apache的豬過濾器功能呢?如何使用Apache豬過濾器來查找「.PDF」
您可以試試下面的過濾器命令?
輸入:
file1.txt
file2.PDF
file3.doc
file4.ppt
file5.pdf
PigScript:
A = LOAD 'input' USING PigStorage() AS (filename:chararray);
B = FILTER A BY filename matches '.*\\.(pdf|PDF)$';
DUMP B;
輸出:
(file2.PDF)
(file5.pdf)