我有一個5節點cluster.I使用pyspark將一個100k csv文件加載到數據幀並執行一些etl操作並將輸出寫入parquet文件。 當我加載數據框時,如何將數據集統一劃分到每個執行器處理20k記錄的所有執行者OS中。pyspark在所有執行者之間均勻分配負載
0
A
回答
0
如果可能,請確保將輸入數據拆分爲更小的文件。 這樣每個執行者將讀取和處理單個文件。
在,你不能修改輸入文件的情況下,你可以打電話df.repartition(5)
,但請記住,這將導致昂貴的整理操作
相關問題
- 1. Cassandra負載分配 - 不均勻1.2.8
- 2. Resque - 在多個服務器之間均勻分配作業負載
- 3. pyspark不均勻地分配負載,增加雙倍尺寸的零件
- 4. Spark沒有將負載均勻分配到任務
- 5. 不均勻的CPU負載分佈
- 6. 按天分配行均勻
- 7. 分配均勻行從表
- 8. 在節點之間均勻分配重量級任務
- 9. 均勻分配菜單
- 10. Hadoop,機器之間的負載不均
- 11. 均勻位置和均勻指數之間的區別?
- 12. 爲所有進程均勻分配值的算法
- 13. Hadoop:如何將任務均勻分配給所有節點
- 14. 浮動div之間的均勻間距
- 15. Higcharts蜱之間不均勻的空間
- 16. 清漆client.identity - 如何更均勻地分割負載?
- 17. 在水平線上均勻分配div
- 18. pySpark:獲取執行者ID
- 19. 在TensorFlow中GPU之間均勻分割RNN內存消耗
- 20. 如何在兩列之間均勻分割TableRow?
- 21. 在最小值和最大值之間均勻分配y軸刻度
- 22. PHP - 在元素之間均勻分配幻燈片7天(可縮放)
- 23. 在整個動態空間中均勻分配多個項目
- 24. Bootstrap 4在容器中均勻分配空間按鈕
- 25. 均勻分配空間li使用百分比
- 26. 在div內均勻分隔行
- 27. Flex的空間之間 - 均勻地分佈在多個線路分佈
- 28. TextView中的行與HTML文本之間的不均勻空間
- 29. 問:我如何均勻分配元素?
- 30. UIStackView - 均勻分配視圖中心
你可以用'重新分區(5)'。 – philantrovert