當數據大小大於內存時PySpark是否提供了優勢？

在處理數據太大而無法完全加載到內存中時，PySpark是否提供了任何優勢？我試圖將這個（和其他功能）與基於IPy Parallel的方法進行比較。當數據大小大於內存時PySpark是否提供了優勢？

2014-01-13 AGG

spark-shell（使用scala）/ pyspark是用於超高速集羣計算。

這一切都取決於集羣的大小，特別是要分配給每個工人的SPARK_WORKER_MEMORY。

如果您的數據更適合內存，spark會有效地使用DISK（以及內存）。

希望這有助於:)

2014-01-14 12:07:06

+根據您的要求選擇RDD持久性存儲級別 –

回答