如何在本地模式下數據不適合RAM時將Apache Spark設置爲使用本地硬盤？

我有50 GB的數據集，它不適合我的工作計算機的8 GB RAM，但它有1 TB本地硬盤。如何在本地模式下數據不適合RAM時將Apache Spark設置爲使用本地硬盤？

從官方文檔的下面鏈接提到，如果數據不適合內存，Spark可以使用本地硬盤。

本地磁盤

雖然星火可以執行大量的內存計算的，它仍然使用本地磁盤來存儲不適合在RAM中的數據，以及至於保留階段之間的中間輸出。

對我來說，計算時間並不是一個優先事項，但由於缺少備用選項，將數據裝入單個計算機的RAM /硬盤進行處理更爲重要。

注：我找這不包括以下項目

我最終的目標是使用Spark MLLIB構建機器學習模型。我正在尋找真實的，實用的解決方案，人們成功地使用Spark來處理單個計算機中獨立/本地模式下不適合RAM的數據。讓某人成功完成這個任務，沒有大的限制

問題

2016-05-17 ML_Pro

看看http://spark.apache.org/docs/latest/programming-guide.html#rdd-persistence 您可以根據需要使用各種持久性模型。 MEMORY_AND_DISK是解決你的問題的方法。如果您想要更好的性能，請使用以序列化方式存儲數據的MEMORY_AND_DISK_SER。

2016-05-17 05:31:52

回答