我想將此結構的數據框更改爲第二個。使用groupby或aggregate來合併RDD或DataFrame中的每個事務中的項目以進行FP增長
+---+-----+-----+
| id|order|items|
+---+-----+-----+
| 0| a| 1|
| 1| a| 2|
| 2| a| 5|
| 3| b| 1|
| 4| b| 2|
| 5| b| 3|
| 6| b| 5|
| 7| c| 1|
| 8| c| 2|
+---+-----+-----+
它改成這樣:
+---+-----+------------+
| id|order| items|
+---+-----+------------+
| 0| a| [1, 2, 5]|
| 1| b|[1, 2, 3, 5]|
| 2| c| [1, 2]|
+---+-----+------------+
我如何能做到這一點的Pyspark?
.withColumn( 「ID」,F.monotonically_increasing_id())這段代碼不能正常工作,它給了ID喜歡1047972020224,一個隨機數。另一個問題是,當我用十億行處理一個非常大的數據時,這種方法很快? – Oak
更新了答案,請檢查 –
如果我不使用Dataframe但RDD具有相同的數據,你知道我該怎麼做同樣的關聯分析? @Shankar Koirala – Oak