2013-08-24 45 views
4

我有這樣的文件在S3:s3distcp srcPattern不工作?

1-2013-08-22-22-something 
2-2013-08-22-22-something 
etc 

沒有srcPattern我可以得到所有從桶中的文件很容易,但我希望得到一個特定的前綴,例如,所有的1組成。我試過使用srcPattern,但由於某些原因,它沒有拾取任何文件。

我現在的命令是:

elastic-mapreduce --jobflow $JOBFLOW --jar /home/hadoop/lib/emr-s3distcp-1.0.jar \ 
--args '--src,s3n://some-bucket/,--dest,hdfs:///hdfs-input,--srcPattern,[0-9]-.*' \ 
--step-name "copying over s3 files" 

回答

5

原來你需要在*的正則表達式

前面例如我需要

.*[0-9]-.* 

我猜,因爲源模式還包括存儲桶名稱?

+1

這意味着我們可以使用正則表達式控制包含完整路徑的文件,這是很好的功能,應該清楚地記錄。 – keiw