0
當Spark接收數據時,是否有特定的情況需要通過驅動程序,然後從驅動程序通過工作人員?同樣的問題適用於工人的直接閱讀。Spark攝入路徑:「Source to Driver to Worker」或「Source to Workers」
我想我只是試圖找出導致一種或另一種情況的條件或情況,以及在每種情況下如何進行分區。
當Spark接收數據時,是否有特定的情況需要通過驅動程序,然後從驅動程序通過工作人員?同樣的問題適用於工人的直接閱讀。Spark攝入路徑:「Source to Driver to Worker」或「Source to Workers」
我想我只是試圖找出導致一種或另一種情況的條件或情況,以及在每種情況下如何進行分區。
如果你限制自己內置的方法則除非你創建一個本地一個分佈式數據結構與方法,如:
SparkSession.createDataset
SparkContext.parallelize
數據總是直接訪問由工作人員提供,但數據分發的細節將因來源不同而有所不同。
RDDS通常取決於Hadoop的輸入格式,但火花SQL和數據源API,至少部分地獨立,至少當涉及到配置,
這並不意味着數據總是適當地分佈。在某些情況下(JDBC,流式接收器)數據可能仍然通過單個節點傳輸。