0
我在我的pyspark腳本中運行s3-dist-cp命令時遇到了一些問題,因爲我需要一些數據移動從S3到HDFS性能增強所以我在這裏分享這個如何在EMR 5.x中的pyspark shell/pyspark腳本中運行「s3-dist-cp」命令
我在我的pyspark腳本中運行s3-dist-cp命令時遇到了一些問題,因爲我需要一些數據移動從S3到HDFS性能增強所以我在這裏分享這個如何在EMR 5.x中的pyspark shell/pyspark腳本中運行「s3-dist-cp」命令
Import os
os.system("/usr/bin/s3-dist-cp --src=s3://aiqdatabucket/aiq-inputfiles/de_pulse_ip/latest/ --dest=/de_pulse/ --groupBy='.*(additional).*' --targetSize=64 --outputCodec=none")
注: - 請確保您給喜歡(在/ usr/bin中/ S3-dist的S3-DIST-CP的完整路徑-cp)
另外,我想我們可以使用子進程。