1

原來,在引導操作中將大文件(〜6 GB)從S3複製到Elastic MapReduce集羣中的每個節點都沒有'規模好;管道只有這麼大,並且隨着#節點變大,下載到節點的節點會受到限制。將S3中的大文件(〜6 GB)複製到Elastic MapReduce集羣的每個節點

我正在運行一個包含22個步驟的作業流程,並且這個文件可能需要8個。當然,我可以從S3複製到HDFS並在每一步之前緩存文件,但這是一個主要的速度殺手(並且可能影響可伸縮性)。理想情況下,作業流程將從每個節點上的文件開始。

有StackOverflow的問題,至少解決斜向通過工作流持續緩存的文件: Re-use files in Hadoop Distributed cacheLife of distributed cache in Hadoop

我不認爲他們幫助我。任何人有一些新的想法?

+0

這取決於你想要做的文件,在很多情況下(包括MR工作,蜂巢查詢等)的EMR可以直接在S3使用的文件,而無需將其下載到本地節點是什麼。這會在你的情況下有用嗎? –

+0

該文件必須位於每個節點上;這是不可談判的。它需要一個特定的可執行文件。 – verve

回答

1

兩個想法,請考慮您的具體情況和無視隨意:

  • 分享通過NFS文件用一個實例類型與同一貼裝組或AZ足夠好的網絡服務器。
  • 將EBS PIOPS卷和EBS優化實例與預加載的文件相結合,並將它們附加到引導操作中的節點上。
相關問題