2016-05-17 38 views
4

我有50 GB的數據集,它不適合我的工作計算機的8 GB RAM,但它有1 TB本地硬盤。如何在本地模式下數據不適合RAM時將Apache Spark設置爲使用本地硬盤?

從官方文檔的下面鏈接提到,如果數據不適合內存,Spark可以使用本地硬盤。

http://spark.apache.org/docs/latest/hardware-provisioning.html

本地磁盤

雖然星火可以執行大量的內存計算的,它仍然 使用本地磁盤來存儲不適合在RAM中的數據,以及至於 保留階段之間的中間輸出。

對我來說,計算時間並不是一個優先事項,但由於缺少備用選項,將數據裝入單個計算機的RAM /硬盤進行處理更爲重要。

注: 我找這包括以下項目

  1. 增加RAM
  2. 樣品&減小數據大小
  3. 使用雲或羣集計算機的解決方案

我最終的目標是使用Spark MLLIB構建機器學習模型。 我正在尋找真實的,實用的解決方案,人們成功地使用Spark來處理單個計算機中獨立/本地模式下不適合RAM的數據。讓某人成功完成這個任務,沒有大的限制

問題

  1. SAS在使用外的核心處理的類似功能,它可以同時使用RAM &本地硬盤上建立模型等可以激發作出在同一工作數據超過RAM大小的方式?

  2. SAS寫持久性完整數據集以「.sas7bdat」格式硬盤可以Spark類似持久硬盤嗎?

  3. 如果可以的話,如何爲此安裝和配置Spark?

回答

相關問題