2017-07-19 46 views

回答

1

rdd.repartition(2)將數據交叉成2個分區,它會使用默認的散列分區這可能不會讓你完全相等大小,但足夠接近。

雖然10MB已經很小了,但我不會過分擔心分區文件。

如果您的目標是簡單地拆分文件,請考慮使用命令行工具split而不是編寫自己的程序來執行此操作。

+0

謝謝。但如果我想根據需要的大小進行分區,就像我想設置的那樣,我收到的文件的大小和當我完成該文件的分區時,每個文件的大小必須爲2MB(不應超過那)..是否可以動態設置文件大小? – Prak

相關問題