我是Pyspark的新手,我使用的是Spark 2.0.2。Pyspark單RDD到RDD的多重RDD密鑰
我已經RDD叫Test_RDD具有以下結構:
U-Key || V1 || V2 || V3 ||
-----------------------------------
1001_01 || 12 || 41 || 21 ||
1001_01 || 36 || 43 || 63 ||
1001_01 || 60 || 45 || 10 ||
1002_03 || 84 || 57 || 14 ||
1002_03 || 18 || 49 || 18 ||
1004_01 || 12 || 41 || 22 ||
1004_01 || 16 || 43 || 26 ||
我需要從U型鍵柱使用獨特的價值觀創造新的RDD,例如
RDD_1001_01爲:
U-Key || V1 || V2 || V3 ||
-----------------------------------
1001_01 || 12 || 41 || 21 ||
1001_01 || 36 || 43 || 63 ||
1001_01 || 60 || 45 || 10 ||
RDD_1002_03 as:
U-Key || V1 || V2 || V3 ||
-----------------------------------
1002_03 || 84 || 57 || 14 ||
1002_03 || 18 || 49 || 18 ||
RDD_1004_01爲:
U-Key || V1 || V2 || V3 ||
-----------------------------------
1004_01 || 12 || 41 || 22 ||
1004_01 || 16 || 43 || 26 ||
從1 RDD(Test_RDD)至3 RDD的(RDD_1001_01,RDD_1002_03,RDD_1004_01) 新RDD的名稱應該是這樣RDD_(從Test_RDD唯一列名稱)。 Pyspark中是否有可用於此場景的功能?