Q

加入Spark中的數據集

2015-12-23 71 views 0 likes

0

Spark中加入數據的不同方式有哪些？加入Spark中的數據集

Hadoop map reduce提供了分佈式緩存，地圖邊連接和減少邊連接。 Spark呢？

另外，如果您可以提供簡單的scala和python代碼來連接Spark中的數據集，那將會很棒。

2015-12-23 Durga Viswanath Gadiraju

+0

[您如何在Spark中使用Python執行兩個RDD表的基本連接？]（http://stackoverflow.com/q/31257077/1560062） – zero323

A

回答

1

Spark有兩個基本的分佈式數據對象。數據幀和RDD。

RDDs的一個特例，在這兩種情況都是成對的情況下，可以通過它們的鍵連接。這可以使用PairRDDFunctions.join()。請參閱：https://spark.apache.org/docs/1.5.2/api/scala/index.html#org.apache.spark.rdd.PairRDDFunctions

數據框還允許類似SQL的連接。請參閱：http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame

2015-12-23 06:29:16

相關問題