我在Amazon EMR上運行其公有DNS的Spark,例如23.21.40.15
。Apache Spark通過跨羣集訪問hdfs中的數據
現在我在這個羣集上執行我的Spark Jar &我想將我的Spark Job的輸出寫入其公有DNS爲29.45.56.72
的其他Amazon EMR HDFS。
我能夠訪問我自己的羣集HDFS,即23.21.40.15
,但我無法寫入羣集29.45.56.72
。
- 我需要做什麼才能讓我的火花作業可以訪問跨羣集 HDFS?
- 如果可能的話,任何人都可以共享此示例代碼?
您可以在第一個羣集上寫出來,然後使用distCp將輸出移動到第二個羣集? –
這是一種間接的方式,我想......但如果我的目的地是第二個集羣?我的意思是如果我想將它寫入第一個集羣的第二個集羣的hdfs? – Akki