2017-08-07 56 views

回答

1

如果你限制自己內置的方法則除非你創建一個本地一個分佈式數據結構與方法,如:

  • SparkSession.createDataset
  • SparkContext.parallelize

數據總是直接訪問由工作人員提供,但數據分發的細節將因來源不同而有所不同。

RDDS通常取決於Hadoop的輸入格式,但火花SQL和數據源API,至少部分地獨立,至少當涉及到配置,

這並不意味着數據總是適當地分佈。在某些情況下(JDBC,流式接收器)數據可能仍然通過單個節點傳輸。