有什麼辦法,如何將外部庫如this one添加到hdfs? 看來pyspark需要外部庫來將它們放在hdfs上的共享文件夾中。 Byt,因爲我使用的是與外部庫一起運行pyspark腳本的shellscript,它無法導入它們。如何將外部python庫添加到HDFS?
關於ImportError,請參閱文章here。
有什麼辦法,如何將外部庫如this one添加到hdfs? 看來pyspark需要外部庫來將它們放在hdfs上的共享文件夾中。 Byt,因爲我使用的是與外部庫一起運行pyspark腳本的shellscript,它無法導入它們。如何將外部python庫添加到HDFS?
關於ImportError,請參閱文章here。
您可以使用--py-files
選項添加外部庫。您可以提供.py文件或.zip文件。
對於爲例,使用火花提交:
spark-submit --master yarn --py-files ./hdfs.zip myJob.py
檢查相應的文件:Submitting Applications
我們安裝了庫中的所有工作節點上。我們只在NameNode上使用它。