我無法找到廣播變量的大小。由於推送羣集的內存限制,這與我的項目有關。羣集正在YARN上運行。在應用程序管理器中,我可以看到單個執行程序和驅動程序的內存使用情況,但我認爲這些只是持久RDDS。檢查大小廣播變量PySpark
1
A
回答
2
Spark使用pickle來序列化/反序列化廣播變量。你可能想嘗試的檢查鹹菜一件事轉儲的大小,例如:
>>> import cPickle as pickle
>>> data = list(range(int(10*1e6))) # or whatever your broadcast variable is
>>> len(pickle.dumps(data))
98888896 # the measurement of the size of your broadcast variable, in bytes
至於影響到羣集的內存限制廣播的變量,一個previous question of mine具有zero323一些有用的技巧。
+1
我認爲pyspark在java中序列化的東西?你確定這正是pyspark如何序列化的東西@captaincapsaicin – Hunle
+1
https://github.com/apache/spark/blob/master/python/pyspark/cloudpickle.py向我表明PySpark使用圍繞pickle序列化的包裝。 – captaincapsaicin
相關問題
- 1. pyspark:減小JSON變量的大小
- 2. 星火廣播變量:大地圖
- 3. pyspark爲什麼選擇一個未廣播的變量?
- 4. 廣播字典中PySpark
- 5. PySpark廣播值字典
- 6. 火花廣播變量的大小是否有限制?
- 7. 如何檢查廣播變量在Spark 2.0中是否有效?
- 8. 廣播變量在星火
- 9. tensorflow變量分配廣播
- 10. PySpark和廣播加入例如
- 11. 如何在PySpark中廣播RDD?
- 12. Spark流和可變廣播變量
- 13. 火花流 - 在foreachrdd中廣播變量廣播始終
- 14. Apache Spark廣播變量是類型廣播?不是RDD?
- 15. 在Apache Spark中廣播小變量會值得嗎?
- 16. 大氣WebSocketProtocol廣播
- 17. WebRTC大型廣播
- 18. 設置用jQuery檢查的廣播箱
- 19. 獲取未檢查的廣播值 - JQuery
- 20. 訪問Spark java中的廣播變量
- 21. 更新RDD中的廣播變量
- 22. 使用parfor的廣播變量
- 23. Android廣播接收器+靜態變量
- 24. MPI自動類型的廣播變量
- 25. 檢查文件大小的變化
- 26. 再次檢查值的最大和最小變量
- 27. Pyspark - 最大/最小參數
- 28. Powershell:檢查變量是否小於15.0.0.152
- 29. Facebook的廣告圖片上傳大小檢查驗證
- 30. 檢查變量是無窮大
廣播數據只是一個普通的Python對象。它不佔用任何特殊空間AFAIK。你應該能夠簡單地估計它的本地大小('sys.getsizeof'應該足夠用於本地對象)的大小,並且將它乘以許多執行者。 – zero323