1
在Spark Dataframe中,我正在尋找下面引擎優化的解釋。Dataframe將直接從Executor連接到RDBMS,否則它將通過驅動程序?
- 數據幀是特殊類型的RDD,它內部包含行RDD。這些RowRDD分佈在執行者身上。
- 當我們編寫從執行者(尤其是在紗線客戶機模式運行),該行RDDS從執行者轉移到驅動程序和驅動寫入到Oracle使用JDBC連接。(這是真的嗎?)
- 當這些RowRDDs在YARN-CLUSTER模式下運行相同的代碼,Row RDD直接從Executor寫入Oracle。這可能是一種更快的方法,但可用的JDBC連接可能會限制/減慢進程速度。
我不確定這是什麼發生在引擎蓋下親切驗證這一點,糾正我,如果我錯了。這將影響一個很大的性能因素。
在此先感謝。