我需要將一個rdd轉換爲兩行,並將一個rdd轉換爲一行。例如:從多行生成一行到一個RDD
rdd1=a
b
我需要:
rdd2=(a,b)
我怎樣才能做到在pyspark這一步呢? 這個問題可能是愚蠢的,但我是新的火花。 「UPDATE」 這是執行rdd2和rdd3之間的直角座標,從rdd1開始。像:
rdd3:(k,l)
(c,g)
(f,x)
我想這樣的輸出:
rddOut:[(a,b),(k,l)]
[(a,b),(c,g)]
[(a,b),(f,x)]
在此先感謝
問題是我必須執行一個測量距離比較兩個相同的rdds(在兩者之間執行笛卡爾),但結果太大了,因爲我正在處理大型數據集。所以這個想法是採取rdd1的第一行,與所有rdd2(與rdd1相同)執行笛卡爾,然後發出輸出文件。刪除rdd1的第一行,先取出新的,用rdd2執行笛卡爾並生成第二個文件等。 –