0
Spark中加入數據的不同方式有哪些?加入Spark中的數據集
Hadoop map reduce提供了分佈式緩存,地圖邊連接和減少邊連接。 Spark呢?
另外,如果您可以提供簡單的scala和python代碼來連接Spark中的數據集,那將會很棒。
Spark中加入數據的不同方式有哪些?加入Spark中的數據集
Hadoop map reduce提供了分佈式緩存,地圖邊連接和減少邊連接。 Spark呢?
另外,如果您可以提供簡單的scala和python代碼來連接Spark中的數據集,那將會很棒。
Spark有兩個基本的分佈式數據對象。數據幀和RDD。
RDDs的一個特例,在這兩種情況都是成對的情況下,可以通過它們的鍵連接。這可以使用PairRDDFunctions.join()
。請參閱:https://spark.apache.org/docs/1.5.2/api/scala/index.html#org.apache.spark.rdd.PairRDDFunctions
數據框還允許類似SQL的連接。請參閱:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame
[您如何在Spark中使用Python執行兩個RDD表的基本連接?](http://stackoverflow.com/q/31257077/1560062) – zero323