有沒有辦法將S330的文件列表複製到hdfs而不是使用s3distcp的完整文件夾?這是當srcPattern不能工作時。s3distcp的多個源文件
我有一個s3文件夾中的多個文件都有不同的名稱。我只想將特定文件複製到hdfs目錄。我沒有找到任何方法指定s3distcp的多個源文件路徑。我目前使用
解決方法是告訴在srcPattern
hadoop jar s3distcp.jar
--src s3n://bucket/src_folder/
--dest hdfs:///test/output/
--srcPattern '.*somefile.*|.*anotherone.*'
中的所有文件名可這件事情時,工作文件的數量實在是太多了?像大約10 000?
你的意思是我應該寫所有文件名(S3路徑)顯示罰款? – 2014-12-12 12:50:00
是的。如果你想要一個清單文件的例子,只需使用--outputManifest選項運行s3distcp,它將生成所有拷貝文件的清單文件。 – 2014-12-14 12:27:55
我試過通過生成我想要的50k文件的列表(以清單格式),但是這種情況下不清楚在所需的「 - src」參數中使用了什麼。 – conradlee 2016-08-04 18:17:01