2
我有本地模式下使用的spark集羣。我想用databricks外部庫spark.csv讀取一個csv。我開始我的應用程序如下:在pyspark代碼中加載外部庫
import os
import sys
os.environ["SPARK_HOME"] = "/home/mebuddy/Programs/spark-1.6.0-bin-hadoop2.6"
spark_home = os.environ.get('SPARK_HOME', None)
sys.path.insert(0, spark_home + "/python")
sys.path.insert(0, os.path.join(spark_home, 'python/lib/py4j-0.8.2.1-src.zip'))
from pyspark import SparkContext, SparkConf, SQLContext
try:
sc
except NameError:
print('initializing SparkContext...')
sc=SparkContext()
sq = SQLContext(sc)
df = sq.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load("/my/path/to/my/file.csv")
當我運行它,我得到以下錯誤:
java.lang.ClassNotFoundException: Failed to load class for data source: com.databricks.spark.csv.
我的問題:我怎麼能加載databricks.spark.csv庫內我的Python代碼。我不想從實例的外部(使用--packages)加載它。
我嘗試添加以下行,但它沒有工作:
os.environ["SPARK_CLASSPATH"] = '/home/mebuddy/Programs/spark_lib/spark-csv_2.11-1.3.0.jar'