我正在使用Jupyter筆記本對pySpark進行分析。我的代碼最初使用sqlContext = SQLContext(sc)構建數據框,但現在我已切換到HiveContext,因爲我將使用窗口函數。HiveContext createDataFrame不工作在pySpark(jupyter)
我的問題是,現在試圖創建數據幀時,我得到一個Java錯誤:
## Create new SQL Context.
from pyspark.sql import SQLContext
from pyspark.sql import DataFrame
from pyspark.sql import Window
from pyspark.sql.types import *
import pyspark.sql.functions as func
sqlContext = HiveContext(sc)
這個後,我看了我的數據轉換成RDD,和我的DF創建模式。
## After loading the data we define the schema.
fields = [StructField(field_name, StringType(), True) for field_name in data_header]
schema = StructType(fields)
現在,當我嘗試建立的DF這是我的錯誤:
## Build the DF.
data_df = sqlContext.createDataFrame(data_tmp, schema)
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
...
/home/scala/spark-1.6.1/python/pyspark/sql/context.pyc in _get_hive_ctx(self)
690
691 def _get_hive_ctx(self):
--> 692 return self._jvm.HiveContext(self._jsc.sc())
693
694 def refreshTable(self, tableName):
TypeError: 'JavaPackage' object is not callable
我一直在Google上搜尋它沒有運氣這麼遠。任何意見是極大的讚賞。
它看起來就像你自己打造星火,對嗎?如果是這種情況,你能否提供一些有關該方法的細節? – zero323
@ zero323是的,我跟着一個非常類似於這個教程的教程:http://blog.prabeeshk.com/blog/2014/10/31/install-apache-spark-on-ubuntu-14-dot-04 /。它看起來像一個配置問題?如果您對如何解決此問題有任何建議,我願意重新安裝。謝謝。 –