我試圖從s3複製193 GB數據到HDFS。我運行下面的命令爲S3-DistCp使用和Hadoop DistCp使用:s3-dist-cp和hadoop distcp作業無限循環在EMR
s3-dist-cp --src s3a://PathToFile/file1 --dest hdfs:///user/hadoop/S3CopiedFiles/
hadoop distcp s3a://PathToFile/file1 hdfs:///user/hadoop/S3CopiedFiles/
我主節點上運行的這些和也保持在金額的支票被轉移。 花了大約一個小時,複製完成後,所有內容都被擦除,羣集中的4個核心實例中的磁盤空間顯示爲99.8%,並且hadoop作業將永久運行。 只要我運行命令,
16/07/18 18:43:55 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:44:02 INFO mapreduce.Job: map 100% reduce 0%
16/07/18 18:44:08 INFO mapreduce.Job: map 100% reduce 14%
16/07/18 18:44:11 INFO mapreduce.Job: map 100% reduce 29%
16/07/18 18:44:13 INFO mapreduce.Job: map 100% reduce 86%
16/07/18 18:44:18 INFO mapreduce.Job: map 100% reduce 100%
此被印刷在數據立即然後拷貝了一個小時。它重新開始。
16/07/18 19:52:45 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:52:53 INFO mapreduce.Job: map 100% reduce 0%
我在這裏丟失了什麼嗎?任何幫助表示讚賞。
另外我想知道我在哪裏可以找到主節點上的日誌文件,看看作業是否失敗,因此循環? 謝謝