我有50 GB的數據集,它不適合我的工作計算機的8 GB RAM,但它有1 TB本地硬盤。如何在本地模式下數據不適合RAM時將Apache Spark設置爲使用本地硬盤?
從官方文檔的下面鏈接提到,如果數據不適合內存,Spark可以使用本地硬盤。
http://spark.apache.org/docs/latest/hardware-provisioning.html
本地磁盤
雖然星火可以執行大量的內存計算的,它仍然 使用本地磁盤來存儲不適合在RAM中的數據,以及至於 保留階段之間的中間輸出。
對我來說,計算時間並不是一個優先事項,但由於缺少備用選項,將數據裝入單個計算機的RAM /硬盤進行處理更爲重要。
注: 我找這不包括以下項目
- 增加RAM
- 樣品&減小數據大小
- 使用雲或羣集計算機的解決方案
我最終的目標是使用Spark MLLIB構建機器學習模型。 我正在尋找真實的,實用的解決方案,人們成功地使用Spark來處理單個計算機中獨立/本地模式下不適合RAM的數據。讓某人成功完成這個任務,沒有大的限制
問題
SAS在使用外的核心處理的類似功能,它可以同時使用RAM &本地硬盤上建立模型等可以激發作出在同一工作數據超過RAM大小的方式?
SAS寫持久性完整數據集以「.sas7bdat」格式硬盤可以Spark類似持久硬盤嗎?
- 如果可以的話,如何爲此安裝和配置Spark?