datanodes上的Spark的Python包

我們希望將Python 3.x與NumPy，Pandas等包一起使用。在Spark的頂部。datanodes上的Spark的Python包

我們知道，使用這些軟件包的Python發行版需要在Spark的所有datanode上呈現/分發以使用這些軟件包。

而不是在所有datanodes上設置這個Python發行版，將它放在所有datanode連接到的NAS掛載器上工作？

感謝

是，把在NAS包安裝到所有的數據節點所連接，如果你有一個很好的NAS將努力多達數十種，也許100個節點。但是，由於所有節點都試圖導入他們所需的文件，因此該解決方案將會大規模崩潰。 Python導入機制對文件系統使用了很多os.stat調用，當所有節點都試圖加載相同的代碼時，這可能會導致瓶頸。

2016-02-26 17:43:59

回答