我正在使用aws .net sdk運行s3distcp作業到EMR,以使用--groupBy arg連接文件夾中的所有文件。但無論我嘗試過的「groupBy」arg如何,它始終失敗,或者只是複製文件而不進行連接,如果沒有在arg列表中指定--groupBy。如何EMR S3DistCp組正確?
該文件夾中的文件是火花saveAsTextFiles命名象下面這樣:
部分0000
部分0001
部分-0002
...
...
step.HadoopJarStep = new HadoopJarStepConfig
{
Jar = "/usr/share/aws/emr/s3-dist-cp/lib/s3-dist-cp.jar",
Args = new List<string>
{
"--s3Endpoint=s3-eu-west-1.amazonaws.com",
"--src=s3://foo/spark/result/bar" ,
"--dest=s3://foo/spark/result-merged/bar",
"--groupBy=(part.*)",
"--targetSize=256"
}
};
我有一個非常類似的問題,你有什麼,但我的文件夾是多一點嵌套..可以請你看看https://stackoverflow.com/questions/46833387/using-groupby-while-copying-從-HDFS到S3到合併-文件中之文件夾 – Amistad