我有一個簡單的文本文件,其中包含某些FTP服務器上的文件夾列表。每一行都是一個單獨的文件夾。每個文件夾包含幾千幅圖像。我想連接到每個文件夾,將該文件夾中的所有文件存儲在SequenceFile
中,然後從FTP服務器中刪除該文件夾。我爲此寫了一個簡單的豬UDF。這裏是:在Apache Pig中下載並行文件列表
dirs = LOAD '/var/location.txt' USING PigStorage();
results = FOREACH dirs GENERATE download_whole_folder_into_single_sequence_file($0);
/* I don't need results bag. It is just a dummy bag */
問題是我不確定每個輸入行是否在單獨的映射器中處理。輸入文件不是隻有幾百行的龐大文件。如果它是純粹的Map/Reduce
那麼我會使用NLineInputFormat
並在單獨的Mapper
中處理每一行。我怎樣才能在豬身上實現同樣的目標?
只是好奇你爲什麼使用'豬'來完成這項任務? – gobrewers14
@ GoBrewers14沒有。試圖學習... –