5
A
回答
5
您可以使用hdfs輸入和輸出路徑,如hdfs:///input/
。
假設你有添加到集羣中的工作如下:
紅寶石彈性MapReduce的-j $ jobflow --jar S3:/my-jar-location/myjar.jar --arg S3:/輸入 --arg S3:/輸出
相反,你可以擁有它,如果你需要它是在HDFS如下:
紅寶石彈性MapReduce的-j $ jobflow --jar S3:/我的-jar-location/myjar.jar --arg hdfs:///輸入 --arg hdfs:///輸出
爲了與EMR集羣上的HDFS進行交互,請將ssh與主節點交互並執行常規的HDFS命令。 例如查看輸出文件,可以按如下操作:
hadoop fs -get hdfs://output/part-r-0000 /home/ec2-user/firstPartOutputFile
但如果你有短暫集羣工作,利用原位HDFS氣餒,當集羣被終止,您會丟失數據。
另外我有基準證明使用S3或HDFS不會提供太多的性能差異。 對於〜200GB的工作量: - 作業得成品22秒S3作爲輸入源 - 工作得成品在20秒與HDFS作爲輸入源
EMR是超級優化,以從/向讀取/寫入數據S3。
對於中間步驟的輸出寫入hdfs是最好的。 所以說,如果你在你的管道3步,那麼你可能有輸入/輸出如下:
- 第1步:從S3輸入,輸出的HDFS
- 第2步:輸入由HDFS在HDFS 輸出
- 步驟3:從HDFS輸入,輸出在S3
相關問題
- 1. AWS EMR性能HDFS vs S3
- 2. 如何在Amazon EMR上重新啓動HDFS
- 3. 如何在EMR
- 4. AWS EMR無主機:hdfs:/// var/log/spark/apps
- 5. EMR hdfs透明地支持s3
- 6. 如何在aws emr上使用-libjars?
- 7. 如何將文件從S3複製到Amazon EMR HDFS?
- 8. 如何將EMR流作業的輸出寫入HDFS?
- 9. 使用distcp和s3distcp與輸出到HDFS的EMR作業使用的問題
- 10. 在運行時在EMR上推導HDFS路徑
- 11. 亞馬遜EMR:在亞馬遜EMR中使用R代碼
- 12. 如何在AWS EMR上啓用SSO登錄到Apache Zeppelin EMR
- 13. 失敗使用Spark在EMR
- 14. 從Hadoop 1.0.3中的AWS EMR上的HDFS清除數據
- 15. 爲什麼在HDFS Hadoop集羣扔LeaseExpiredException(AWS EMR)
- 16. 從本地機器上的Java代碼在AWS EMR連接HDFS
- 17. WARN mapreduce.LoadIncrementalHFiles:跳過非目錄hdfs:在EMR上
- 18. 在EMR中使用第三方軟件
- 19. 如何在EMR集羣中連接JobTracker
- 20. 如何在Amazon EMR中運行WordCount?
- 21. 如何使用Python在Amazon EMR流在豬的UDF
- 22. HDFS vs GridFS:何時使用?
- 23. HDFS和MapReduce如何使用小文件
- 24. 瞭解hbase如何使用hdfs
- 25. 如何使用haddop的hdfs與火花
- 26. 如何在EMR作業中傳遞參數以在引導腳本中使用
- 27. 如何使用Scala在Apache Tika中提供hdfs路徑?
- 28. 如何使用Ruby在MapR HDFS中保存文件
- 29. 如何使用Ruby在Hadoop HDFS中寫入/讀取文件?
- 30. 如何在C#中使用Web HDFS REST API追加文件?
每個回合後,我得到了很多的輸出文件,我怎麼能貓他們到1個文件進行下一步驟之前, ?另外,我怎樣才能改變亞馬遜emr的S3/HDFS塊的大小?我使用控制檯,我應該移動到亞馬遜cli? – member555