2015-08-20 71 views
2

我在獨立模式下設置了一個spark主站和一些slave的spark 1.2.1集羣。然後讓我的數據科學家享受集羣的力量。爲什麼在提交作業的機器中填充tmp(spark.local.dir)的火花?

所有工作正常。然而,我的數據科學家用來提交spark工作的專用服務器的spark.local.dir逐漸填滿。

由於本機是坐在集羣,不是高手,也不是工人/從站外,我也不會想到,當地spark.local.dir以任何方式火花使用。 (爲什麼會呢?這隻能說明日誌。)

我無法找到一個很好的文檔詳細介紹了這部分信息。有人有想法嗎?

回答

1

關於你的設置沒有足夠的信息可以肯定的,但我猜測,這些工作是在客戶端模式下啓動,其中駕駛員將您的客戶端節點上。

來自spark文檔: 在客戶端模式下,驅動程序在與提交應用程序的客戶端相同的進程中啓動。然而,在集羣模式下,驅動程序是從集羣內的其中一個Worker進程啓動的,客戶端進程在完成其提交應用程序的責任時立即退出,而無需等待應用程序完成。

我猜測在客戶端模式下,應用程序的驅動程序(在客戶端計算機上)需要大量臨時空間來管理其他工作人員。

相關問題