火花提交作業的分區數量不斷增加

-1

我們正在運行spark-submit命令以處理12個內核上的100GB數據。該命令創建了18個任務，因爲它需要大量時間。我們想增加分區的數量來增加減少時間的任務數量。我們怎麼做到這一點？火花提交作業的分區數量不斷增加

分區數量通常從您的數據源派生，並在您執行第一次洗牌時更改爲200。

您可以在任何時候在代碼中重新分區。 rdd和dataframe都有重新分區方法（rdd也有repartitionAndSortWithinPartitions，並且dataframe的重新分區可以提供分區列，以便確保根據相關列重新分區）。

2016-11-28 07:48:43

無論誰低估了這個答案，你能解釋一下它有什麼問題嗎？ –

我不知道誰downvoted它，但我喜歡你的答案，所以這裏是一個upvote :) –

回答