2017-07-28 26 views
0

有什麼辦法,如何將外部庫如this one添加到hdfs? 看來pyspark需要外部庫來將它們放在hdfs上的共享文件夾中。 Byt,因爲我使用的是與外部庫一起運行pyspark腳本的shellscript,它無法導入它們。如何將外部python庫添加到HDFS?

關於ImportError,請參閱文章here

回答

2

您可以使用--py-files選項添加外部庫。您可以提供.py文件或.zip文件。

對於爲例,使用火花提交:

spark-submit --master yarn --py-files ./hdfs.zip myJob.py 

檢查相應的文件:Submitting Applications

0

我們安裝了庫中的所有工作節點上。我們只在NameNode上使用它。