Spark內部 - 重新分區是否加載內存中的所有分區？

我無法在任何地方發現RDD內部如何執行重新分配？我知道你可以在RDD上調用重新分區方法來增加分區的數量，但是如何在內部執行它？Spark內部 - 重新分區是否加載內存中的所有分區？

假設，最初有5個分區並且他們有 -

第一分區 - 100個元件
第二分區 - 200個元件
第三分區 - 500個元件
第四分區 - 5000個元素
第5個分區--200個元素

部分分區傾斜，因爲它們是從HBase加載的，並且HBase中的數據未正確醃製，導致某些區域服務器的條目太多。

在這種情況下，當我們重新分區到10時，它會先加載所有分區，然後再進行混洗來創建10分區？如果完整的數據不能被加載到內存中，即所有分區不能一次加載到內存中呢？如果Spark不將所有分區加載到內存中，那麼它如何知道計數以及它如何確保將數據正確分區爲10個分區。

來源

2017-05-13 Krishna Kumar

從我所瞭解的，repartition肯定會觸發shuffle。從Job Logical Plan文檔以下可以說有關repartition

- for each partition, every record is assigned a key which is an increasing number. 
    - hash(key) leads to a uniform records distribution on all different partitions.

如果Spark不能所有的數據加載到memory然後memory issue將被拋出。因此，Spark的默認處理全部在memory中完成，即，應該總是有足夠的存儲器用於您的數據。
Persist選項可以用來告訴spark到spill在disk你的數據，如果沒有足夠的內存。
Jacek Laskowski也解釋了重新分區。
Understanding your Apache Spark Application Through Visualization應足以讓你測試，並通過自己知道。

來源

2017-05-14 17:56:26

Spark內部 - 重新分區是否加載內存中的所有分區？

回答

相關問題