如何在EMR 5.x中的pyspark shell/pyspark腳本中運行「s3-dist-cp」命令

我在我的pyspark腳本中運行s3-dist-cp命令時遇到了一些問題，因爲我需要一些數據移動從S3到HDFS性能增強所以我在這裏分享這個如何在EMR 5.x中的pyspark shell/pyspark腳本中運行「s3-dist-cp」命令

來源

2017-01-23 braj259

Import os 

os.system("/usr/bin/s3-dist-cp --src=s3://aiqdatabucket/aiq-inputfiles/de_pulse_ip/latest/ --dest=/de_pulse/ --groupBy='.*(additional).*' --targetSize=64 --outputCodec=none")

注： - 請確保您給喜歡（在/ usr/bin中/ S3-dist的S3-DIST-CP的完整路徑-cp）

另外，我想我們可以使用子進程。

來源

2017-01-23 12:49:55 braj259

如何在EMR 5.x中的pyspark shell/pyspark腳本中運行「s3-dist-cp」命令

回答

相關問題