我已經安裝了Spark-1.4.0。我還安裝了它的R包SparkR,我可以通過Spark-shell和RStudio使用它,但是,我無法解決一個區別。通過RStudio加載com.databricks.spark.csv
當啓動SparkR殼
./bin/sparkR --master local[7] --packages com.databricks:spark-csv_2.10:1.0.3
我可以閱讀的.csv文件作爲不幸的是如下
flights <- read.df(sqlContext, "data/nycflights13.csv", "com.databricks.spark.csv", header="true")
,當我通過RStudio開始SparkR(正確設置我的SPARK_HOME)我得到以下錯誤消息:
15/06/16 16:18:58 ERROR RBackendHandler: load on 1 failed
Caused by: java.lang.RuntimeException: Failed to load class for data source: com.databricks.spark.csv
我知道應該加載com.databricks:火花csv_2.10:1 .0.3在某種程度上,但我不知道如何做到這一點。有人能幫助我嗎?
跟着你上面的步驟,我無法讀取sparkR殼csv文件。 org.apache.spark.SparkException:收到此錯誤, 所致作業已中止由於階段失敗:在階段0 0(TID 0失落任務0.0:鉭 SK 0級0.0失敗1次,最近一次失敗,localhost):java.lang.NullPointerException 你對此有什麼想法嗎? –
我不知道,我不能複製錯誤。然而,你的sqlContext確實存在,該輸入路徑確實存在,它正確地發現com.databricks.spark.csv我知道,否則你就會有其他錯誤的消息。你能說明你的整個工作流程嗎? –
我在這裏添加了詳細信息http:// stackoverflow。com/questions/31050823/job-fails-on-load-com-databricks-spark-csv-in-sparkr-shell –