2016-07-20 16 views
1

我有這個問題,我一直無法找到答案。誰在Spache Spark中將分區加載到RAM中?

我使用下列行到PySpark應用內加載數據:

loadFile = self.tableName+".csv" 
dfInput= self.sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load(loadFile) 

我的羣集配置如下:

  • 我使用的火花簇與3個節點:1個節點用於啓動主站,其他2個節點每個運行1個工作站。
  • 我使用腳本從集羣外部的登錄節點提交應用程序。
  • 該腳本提交Spark應用程序集羣部署模式,我認爲,然後在這種情況下,使驅動程序運行在我正在使用的任何3個節點上。
  • 輸入的CSV文件存儲在全局可見的臨時文件系統(Lustre)中。

在Apache Spark Standalone中,如何將分區加載到RAM?

  1. 是每個執行程序訪問驅動程序的節點RAM並從那裏加載分區到它自己的RAM嗎? (存儲 - >驅動程序的RAM - >執行程序的RAM)
  2. 是每個執行程序訪問存儲並加載到它自己的RAM嗎? (存儲 - >執行者的RAM)

難道不是這些,我在這裏失去了一些東西嗎?我怎樣才能親眼目睹這個過程(監控工具,unix命令,Spark中的某處)?

任何評論或資源,我可以深入到這將是非常有益的。提前致謝。

回答

0

第二種情況是正確的:

每個執行訪問存儲和加載到自己的內存? (存儲 - >執行器的RAM)