1
原來,在引導操作中將大文件(〜6 GB)從S3複製到Elastic MapReduce集羣中的每個節點都沒有'規模好;管道只有這麼大,並且隨着#節點變大,下載到節點的節點會受到限制。將S3中的大文件(〜6 GB)複製到Elastic MapReduce集羣的每個節點
我正在運行一個包含22個步驟的作業流程,並且這個文件可能需要8個。當然,我可以從S3複製到HDFS並在每一步之前緩存文件,但這是一個主要的速度殺手(並且可能影響可伸縮性)。理想情況下,作業流程將從每個節點上的文件開始。
有StackOverflow的問題,至少解決斜向通過工作流持續緩存的文件: Re-use files in Hadoop Distributed cache, Life of distributed cache in Hadoop。
我不認爲他們幫助我。任何人有一些新的想法?
這取決於你想要做的文件,在很多情況下(包括MR工作,蜂巢查詢等)的EMR可以直接在S3使用的文件,而無需將其下載到本地節點是什麼。這會在你的情況下有用嗎? –
該文件必須位於每個節點上;這是不可談判的。它需要一個特定的可執行文件。 – verve