2
A
回答
2
我相信這是因爲你可以在多個地點同一個分區的緩存。有關更多詳細信息,請參見SPARK-4049。
編輯:
如果也許你已經設置speculative execution(見spark.speculation
)我不知道?如果你的任務很複雜,他們會重新啓動,我相信它會複製一個分區。此外,另一個有用的事情可能是致電rdd.toDebugString
,它將提供關於RDD的大量信息,包括轉換歷史記錄和緩存分區的數量。
相關問題
- 1. 滑動,當緩存大小大於50 mb時清除緩存
- 2. 如何禁用緩存100%
- 3. Spark緩存:緩存爲100%,而磁盤上的大小不爲零,爲什麼?
- 4. 爲什麼docker stats CPU百分比大於100倍核心數
- 5. 我如何存儲大於100億的數字
- 6. wordpress抓取大於id的數據100
- 7. 性能計數器大於100%
- 8. 緩存大量數據
- 9. sklearn.gaussian_process fit()不適用於大於100的數組大小
- 10. 複製高速緩存中的數據大於一個高速緩存行
- 11. 網站寬度大於100%
- 12. 中心爲大於100%
- 13. Caffe精度大於100%
- 14. APC緩存變量大於user_entries_hint
- 15. 緩存內存中的大量數據
- 16. 基於登錄用戶緩存部分
- 17. PHP APC緩存不起作用100%
- 18. ASP.NET緩存最大大小
- 19. 最大緩存大小
- 20. .net緩存大小
- 21. HTML5緩存大小?
- 22. 動態分配緩存大小以緩解堆空間錯誤
- 23. 用於大型數據集的Perl緩存庫?
- 24. 用於大型數據集的Azure緩存
- 25. 保存數據庫中緩存/內存中的大部分對象?
- 26. Symfony2緩存包(類似於Zend緩存)
- 27. Symfony緩存問題(緩存部分)
- 28. ASP.NET InProc緩存vs分佈式緩存
- 29. AppFabric緩存 - 查詢分佈式緩存
- 30. 在c3量表中顯示大於100的百分比值
我沒有在任何RDD上調用兩次。其他什麼操作可能導致這種情況?有沒有一種方法可以找出哪個RDD被緩存兩次?謝謝! – Edamame
查看您的UI,緩存兩次的RDD具有500個分區(RDD 19)和50個分區(RDD 30)。您可以在每個RDD上以編程方式調用'rdd.partitions.size'(或pyspark中的'rdd.getNumPartitions()')來確定哪個RDD超過了100%。 –