火花簇我有我通過谷歌dataproc產生火花集羣。我希望能夠使用數據文件中的csv庫(請參閱https://github.com/databricks/spark-csv)。所以我第一次測試是這樣的:使用pyspark作業的外部庫中,谷歌,dataproc
我開始SSH會話與我集羣的主節點,然後我輸入:
pyspark --packages com.databricks:spark-csv_2.11:1.2.0
然後又推出了pyspark殼中,我輸入:
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('gs:/xxxx/foo.csv')
df.show()
它的工作。
我的下一個步驟是使用下面的命令從我的主機啓動該作業:
gcloud beta dataproc jobs submit pyspark --cluster <my-dataproc-cluster> my_job.py
但在這裏它不工作,我得到一個錯誤。我想因爲我沒有給出--packages com.databricks:spark-csv_2.11:1.2.0
作爲論據,但我嘗試了10種不同的方式來給它,我沒有管理。
我的問題是:
- 安裝了databricks CSV庫我輸入
pyspark --packages com.databricks:spark-csv_2.11:1.2.0
- 後,我可以寫我的
job.py
線,以進口嗎? - 或我應該給我的gcloud命令導入或安裝它的參數?
Dataproc中有一個JARS沒有被Pyspark工作接受的錯誤。我正在尋找一種替代解決方案。我只是想讓你知道我們正在查看更大的錯誤,而且我看到我們是否也可以爲你臨時修復。 :) – James
希望在這裏也有解決方法和解決方法,thx @James!我們試圖從python和scala的cassandra連接器中使用dataproc – navicore