2016-11-28 55 views
-1

我們正在運行spark-submit命令以處理12個內核上的100GB數據。該命令創建了18個任務,因爲它需要大量時間。我們想增加分區的數量來增加減少時間的任務數量。我們怎麼做到這一點?火花提交作業的分區數量不斷增加

回答

1

分區數量通常從您的數據源派生,並在您執行第一次洗牌時更改爲200。

您可以在任何時候在代碼中重新分區。 rdd和dataframe都有重新分區方法(rdd也有repartitionAndSortWithinPartitions,並且dataframe的重新分區可以提供分區列,以便確保根據相關列重新分區)。

+0

無論誰低估了這個答案,你能解釋一下它有什麼問題嗎? –

+0

我不知道誰downvoted它,但我喜歡你的答案,所以這裏是一個upvote :) –

相關問題