1
我有這個問題,我一直無法找到答案。誰在Spache Spark中將分區加載到RAM中?
我使用下列行到PySpark應用內加載數據:
loadFile = self.tableName+".csv"
dfInput= self.sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load(loadFile)
我的羣集配置如下:
- 我使用的火花簇與3個節點:1個節點用於啓動主站,其他2個節點每個運行1個工作站。
- 我使用腳本從集羣外部的登錄節點提交應用程序。
- 該腳本提交Spark應用程序集羣部署模式,我認爲,然後在這種情況下,使驅動程序運行在我正在使用的任何3個節點上。
- 輸入的CSV文件存儲在全局可見的臨時文件系統(Lustre)中。
在Apache Spark Standalone中,如何將分區加載到RAM?
- 是每個執行程序訪問驅動程序的節點RAM並從那裏加載分區到它自己的RAM嗎? (存儲 - >驅動程序的RAM - >執行程序的RAM)
- 是每個執行程序訪問存儲並加載到它自己的RAM嗎? (存儲 - >執行者的RAM)
難道不是這些,我在這裏失去了一些東西嗎?我怎樣才能親眼目睹這個過程(監控工具,unix命令,Spark中的某處)?
任何評論或資源,我可以深入到這將是非常有益的。提前致謝。