6
A
回答
4
Spark將shuffle操作中的中間數據存儲在磁盤的「底層」優化中。當spark需要重新計算RDD圖的一部分時,如果RDD已經存在,那麼它可能會截斷RDD圖的沿襲,這是早期洗牌的副作用。即使RDD未被緩存或顯式持久,也可能發生這種情況。
這個答案的來源是O'Reilly書籍Karau,Konwinski,Wendell的Learning Spark & Zaharia。第8章:調試和調試Spark。部分:執行組件:作業,任務和階段。
相關問題
- 1. 將數據添加到存儲在磁盤上的Spark/Parquet數據
- 2. Apache Cassandra磁盤上的數據存儲
- 3. 如何估算Spark Shuffle所需的內存和磁盤?
- 4. Spark緩存:緩存爲100%,而磁盤上的大小不爲零,爲什麼?
- 5. MongoDB數據庫中的數據如何存儲在磁盤上?
- 6. Java Script對象存儲在磁盤上的位置是什麼?
- 7. InnoDB沒有在磁盤上存儲什麼值?
- 8. RavenDB Embedded:存儲在磁盤上的數據在哪裏?
- 9. 爲什麼在存儲在磁盤上時嘗試比散列表慢?
- 10. 爲什麼Redis Hash Bucket保存磁盤?
- 11. RDFlib'磁盤'存儲
- 12. RavenDB磁盤存儲
- 13. 爲什麼核心數據不會保存到磁盤?
- 14. 將會話存儲在磁盤上
- 15. Django:在磁盤上存儲InMemoryUploadedFile
- 16. 在磁盤或MongoDB上存儲文件
- 17. 如何將JSON數據存儲在磁盤上?
- 18. 加密Mysql數據庫存儲在磁盤上的文件
- 19. 數據如何存儲在磁盤上? - EFI GUID
- 20. mysql數據如何存儲在磁盤上?
- 21. 將未使用的類數據成員存儲在磁盤上
- 22. 數據庫記錄如何存儲在磁盤上?
- 23. MongoDB - 在磁盤上存儲SSD和數據收集索引?
- 24. 爲什麼jvm重啓後ehcache磁盤存儲失效?
- 25. 在Java中將對象存儲在磁盤上的最佳方式是什麼?
- 26. 存儲空數據時是否消耗磁盤空間?
- 27. SQL Server 2014如何使用磁盤空間來存儲數據
- 28. spark-mapwithstate爲什麼存儲空間的數量仍然是20?
- 29. 在Azure Linux VM中,什麼存在?什麼磁盤收費?
- 30. 磁盤上的數據庫存儲,最佳實踐
您可以將「spark.shuffle.spill」設置爲false以將中間數據寫入內存。 – Amos 2014-12-26 03:45:20
爲什麼這不是默認選項? – 2014-12-26 03:47:30