2017-03-31 69 views
3

我在集羣模式下運行spark並通過JDBC從RDBMS讀取數據。通過JDBC從RDBMS讀取時分隔火花

作爲每火花docs,這些分區參數描述瞭如何從多個工人中並行讀取時分區表:

partitionColumn, 
lowerBound, 
upperBound, 
numPartitions 

這些是可選參數。

,如果我不指定這些會發生什麼:

  • 只有1個工作者閱讀整個數據?
  • 如果它仍然並行讀取,它如何分區數據?

回答

4

如果沒有指定{partitionColumnlowerBoundupperBoundnumPartitions}或{} predicates星火將使用一個執行者,並創建一個非空分區。所有數據將使用單個事務進行處理,讀取既不會分發也不會並行化。