將S3中的大文件（〜6 GB）複製到Elastic MapReduce集羣的每個節點

原來，在引導操作中將大文件（〜6 GB）從S3複製到Elastic MapReduce集羣中的每個節點都沒有'規模好;管道只有這麼大，並且隨着＃節點變大，下載到節點的節點會受到限制。將S3中的大文件（〜6 GB）複製到Elastic MapReduce集羣的每個節點

我正在運行一個包含22個步驟的作業流程，並且這個文件可能需要8個。當然，我可以從S3複製到HDFS並在每一步之前緩存文件，但這是一個主要的速度殺手（並且可能影響可伸縮性）。理想情況下，作業流程將從每個節點上的文件開始。

有StackOverflow的問題，至少解決斜向通過工作流持續緩存的文件： Re-use files in Hadoop Distributed cache， Life of distributed cache in Hadoop。

我不認爲他們幫助我。任何人有一些新的想法？

2014-05-21 verve

這取決於你想要做的文件，在很多情況下（包括MR工作，蜂巢查詢等）的EMR可以直接在S3使用的文件，而無需將其下載到本地節點是什麼。這會在你的情況下有用嗎？ –

該文件必須位於每個節點上;這是不可談判的。它需要一個特定的可執行文件。 – verve

兩個想法，請考慮您的具體情況和無視隨意：

2014-05-21 22:32:33

回答