爲什麼在提交作業的機器中填充tmp（spark.local.dir）的火花？

我在獨立模式下設置了一個spark主站和一些slave的spark 1.2.1集羣。然後讓我的數據科學家享受集羣的力量。爲什麼在提交作業的機器中填充tmp（spark.local.dir）的火花？

所有工作正常。然而，我的數據科學家用來提交spark工作的專用服務器的spark.local.dir逐漸填滿。

由於本機是坐在集羣，不是高手，也不是工人/從站外，我也不會想到，當地spark.local.dir以任何方式火花使用。（爲什麼會呢？這隻能說明日誌。）

我無法找到一個很好的文檔詳細介紹了這部分信息。有人有想法嗎？

關於你的設置沒有足夠的信息可以肯定的，但我猜測，這些工作是在客戶端模式下啓動，其中駕駛員將您的客戶端節點上。

來自spark文檔：在客戶端模式下，驅動程序在與提交應用程序的客戶端相同的進程中啓動。然而，在集羣模式下，驅動程序是從集羣內的其中一個Worker進程啓動的，客戶端進程在完成其提交應用程序的責任時立即退出，而無需等待應用程序完成。

我猜測在客戶端模式下，應用程序的驅動程序（在客戶端計算機上）需要大量臨時空間來管理其他工作人員。

2015-08-20 03:01:48 farmi

回答