2017-02-11 51 views
0

當我向S3提交創建實木複合地板文件的工作時,EMR中是否有任何服務或可以看到進度條(或經過時間)的方式?EMR Spark - 如何查看將文件寫入S3的進度?

代碼:

df.write.partitionBy("date").mode("append").parquet("s3n://uk-adp-vault/semasio/output") 
+0

根據我的經驗,你應該避免以這種方式附加新數據。運行時間與s3上的現有數據量成線性關係。看到這個:http://stackoverflow.com/questions/40830152/how-to-avoid-reading-old-files-from-s3-when-appending-new-data 當使用s3-dist-cp我可以看到資源管理器中的進度(http:// :8088 /集羣) – Niros

+0

Niros的建議是正確的,但工作進度在Spark UI – eliasah

回答

0

可以使用電子病歷的8088端口去到ResourceManager。這會顯示內存使用情況。

從那裏你可以導航到ApplicationMaster這是羣集的火花UI。這將向您展示該工作的進展情況,並詳細介紹每項工作。