6
我使用的Spark 1.3PySpark和廣播加入例如
# Read from text file, parse it and then do some basic filtering to get data1
data1.registerTempTable('data1')
# Read from text file, parse it and then do some basic filtering to get data1
data2.registerTempTable('data2')
# Perform join
data_joined = data1.join(data2, data1.id == data2.id);
我的數據是相當扭曲和數據2(幾KB)< < DATA1(GB的10秒),表現相當不錯。我正在閱讀有關廣播連接,但不知道如何使用Python API執行相同操作。
'pyspark.sql.functions.broadcast'最早出現在1.6,根據到[文檔](https://spark.apache.org/docs/1.6.2/api/python/pyspark.sql.html#module-pyspark.sql.functions) –
@NicholasWhite在PySpark包裝已添加1.6但是Scala方法從1.5開始可用,所以你可以使它在1.5中工作。 – zero323