0
在處理數據太大而無法完全加載到內存中時,PySpark是否提供了任何優勢?我試圖將這個(和其他功能)與基於IPy Parallel的方法進行比較。當數據大小大於內存時PySpark是否提供了優勢?
在處理數據太大而無法完全加載到內存中時,PySpark是否提供了任何優勢?我試圖將這個(和其他功能)與基於IPy Parallel的方法進行比較。當數據大小大於內存時PySpark是否提供了優勢?
spark-shell(使用scala)/ pyspark是用於超高速集羣計算。
這一切都取決於集羣的大小,特別是要分配給每個工人的SPARK_WORKER_MEMORY。
如果您的數據更適合內存,spark會有效地使用DISK(以及內存)。
希望這有助於:)
+根據您的要求選擇RDD持久性存儲級別 –