2017-08-21 23 views
1

我一直在使用s3-dist-cp將壓縮的JSON文件從S3移動到HDFS作爲更大工作的一部分。我從EMR 5.4開始並通過大多數5.x升級,目前我運行的是EMR 5.7的32臺機器羣,沒有任何問題。當我從EMR 5.7升級到EMR 5.8時,s3-dist-cp失敗並出現OutOfMemoryException錯誤5.8

當我試圖升級到EMR 5.8時,s3-dist-cp作業失敗,如下所示。 5.7和5.8之間有什麼變化會導致這種情況?

# 
# java.lang.OutOfMemoryError: Java heap space 
# -XX:OnOutOfMemoryError="kill -9 %p 
kill -9 %p" 
# Executing /bin/sh -c "kill -9 11042 
kill -9 11042"... 
/usr/share/aws/emr/s3-dist-cp/bin/s3-dist-cp: line 55: 11042 Killed     hadoop jar "$S3_DIST_CP_JAR" -libjars "$LIBJARS" "[email protected]" 
Traceback (most recent call last): 
    ... 

回答

1

它可能爲時已晚,但肯定的,有關於S3-DIST-CP導致的S3-DIST-CP工作的故障對EMR-5.8.0將在emr-工作,否則錯誤5.7.0。這個bug可能會導致S3DistCp客戶端上的OOM,因爲在實際提交MapRed作業之前列出S3對象時,它會消耗更多的內存。它固定在5.9.0。

+0

是的,我最終打開了一個支持案例,他們在下一個EMR版本中修復。 – gae123