0
我得到了10 DataFrame
s與我想合併成一個DataFrame
相同的模式。每個DataFrame
都是使用sqlContext.sql("select ... from ...").cahce
構建的,這意味着在技術上,DataFrame
在使用它們之前並不真正計算。Spark是否並聯UnionAll?
所以,如果我跑:
val df_final = df1.unionAll(df2).unionAll(df3).unionAll(df4) ...
將星火計算並行所有這些DataFrame
S或一個接一個(由於點運算符)?
此外,雖然我們在這裏 - 是否有一個更優雅的方式來執行幾個DataFrame
比我上面列出的unionAll
?
關於最後一部分,請參閱http://stackoverflow.com/a/37612978/1560062。如果它「平行」發生?這取決於你的意思是平行以及可用的資源和數據。 – zero323
@ zero323它發生異步和非阻塞,假設它有足夠的資源來處理它? – shakedzy
我認爲Daniel很回答這個問題:) – zero323