例如,我有一個文件夾:在使用pyspark提交作業時,如何使用--files參數訪問靜態文件上傳?
/
- test.py
- test.yml
,且作業submited引發集羣:在test.py
gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py"
,我要訪問我上傳的靜態文件。
with open('test.yml') as test_file:
logging.info(test_file.read())
卻得到了以下異常:
IOError: [Errno 2] No such file or directory: 'test.yml'
如何訪問我上傳的文件?
第一件事就是將文件添加到分佈式文件系統(如HDFS)whic h羣集可以訪問。我相信其他人會提供更好的解決方案。 –