0
當我向S3提交創建實木複合地板文件的工作時,EMR中是否有任何服務或可以看到進度條(或經過時間)的方式?EMR Spark - 如何查看將文件寫入S3的進度?
代碼:
df.write.partitionBy("date").mode("append").parquet("s3n://uk-adp-vault/semasio/output")
當我向S3提交創建實木複合地板文件的工作時,EMR中是否有任何服務或可以看到進度條(或經過時間)的方式?EMR Spark - 如何查看將文件寫入S3的進度?
代碼:
df.write.partitionBy("date").mode("append").parquet("s3n://uk-adp-vault/semasio/output")
可以使用電子病歷的8088端口去到ResourceManager。這會顯示內存使用情況。
從那裏你可以導航到ApplicationMaster這是羣集的火花UI。這將向您展示該工作的進展情況,並詳細介紹每項工作。
根據我的經驗,你應該避免以這種方式附加新數據。運行時間與s3上的現有數據量成線性關係。看到這個:http://stackoverflow.com/questions/40830152/how-to-avoid-reading-old-files-from-s3-when-appending-new-data 當使用s3-dist-cp我可以看到資源管理器中的進度(http://:8088 /集羣) –
Niros
Niros的建議是正確的,但工作進度在Spark UI – eliasah