只是圍繞spark-submit,我的印象是,如果我的應用程序依賴於其他.py文件,那麼我必須使用py-files選項來分發它們(請參閱bundling your applications dependencies)。我把那意味着所有文件必須用py-文件尚未以下罰款作品...兩個.py
文件中聲明:在什麼情況下我必須使用spark-submit的py-files選項?
spark_submit_test_lib.py
:
def do_sum(sc) :
data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)
return distData.sum()
和spark_submit_test.py
:
提交使用:
spark-submit --queue 'myqueue' spark_submit_test.py
所有w沒問題。代碼運行,產生正確的結果,spark-submit優雅地終止。
不過,我還以爲看了,我將不得不這樣做的文檔:
spark-submit --queue 'myqueue' --py-files spark_submit_test_lib.py spark_submit_test.py
這仍然工作,當然。我只是想知道爲什麼前者工作得很好。有什麼建議麼?
謝謝@ cricket_007的編輯。非常有用的一個。 – jamiet