1
A
回答
6
4
monotonically_increasing_id - 生成的ID保證是單調遞增的,獨特的,而不是連續的。
「我想從1添加一列到行的數量。」
讓我們說,我們有以下的DF
+--------+-------------+-------+ | userId | productCode | count | +--------+-------------+-------+ | 25 | 6001 | 2 | | 11 | 5001 | 8 | | 23 | 123 | 5 | +--------+-------------+-------+
要生成的ID從1
val w = Window.orderBy("count")
val result = df.withColumn("index", row_number().over(w))
這起將增加通過增加計數值排序的索引列。
+--------+-------------+-------+-------+ | userId | productCode | count | index | +--------+-------------+-------+-------+ | 25 | 6001 | 2 | 1 | | 23 | 123 | 8 | 2 | | 11 | 5001 | 5 | 3 | +--------+-------------+-------+-------+
相關問題
- 1. 如何添加火花數據框中的火花數據框的列(使用Pyspark)?
- 2. 添加兩個火花現有列添加到數據庫
- 3. 火花數據集:如何從一列
- 4. 火花數據框中:如何通過每一個ID爆炸一IntegerType列
- 5. 加入數據框火花java
- 6. 將列添加到火花數據集並轉換數據
- 7. 如何平鋪一個pyspark數據框? (火花1.6)
- 8. 如何將列添加到多索引數據框?
- 9. 在火花數據幀中添加列基於規則
- 10. 如何基於火花階現有列中添加新列
- 11. 如何爲pandas multiindex數據框中的每個子索引添加一行?
- 12. 如何在數據幀的基礎添加列於其他列的值火花
- 13. 如何使用另一個數據框的索引來索引數據框?
- 14. 熊貓:花式索引數據框
- 15. 如何過濾火花數據幀,如果一列是另一個列
- 16. 如何修改火花數據幀的一行中的列值?
- 17. 火花數據框中groupping不計空
- 18. 將列添加到多索引的pandas數據框中
- 19. 將熊貓系列添加到數據框中,保留索引
- 20. 添加標題和列到數據幀火花
- 21. 如何添加火花包到eclipse
- 22. build.sbt:如何添加火花依賴
- 23. 如何添加火花插件?
- 24. 如何爲火花流中的每個批次數據添加標籤?
- 25. Elasticsearch中的索引火花數據集<Row>時出錯。
- 26. 熊貓:將列添加到多索引列數據框
- 27. 添加隨機樣本來自一個火花數據幀到另一個
- 28. 如何緩存火花數據幀,並在另一個腳本中引用它
- 29. 如何在數據框中添加列
- 30. 如何在數據框中添加列?
我想知道爲什麼您爲scala編寫的代碼不適用於pyspark。即''df.withColumn(「id」,monotonicallyIncreasingId)' – anwartheravian
該scala代碼工作。由於 但是我得到以下警告「警告:有一個棄用警告;與-deprecation的細節重新運行」 – Ajay
monotonicallyIncreasingId不保證「ID」將是「從1到行的數量」。從DOC:https://spark.apache.org/docs/latest/api/java/org/apache/spark/sql/functions.html#monotonically_increasing_id--「所生成的ID是保證單調增加的和獨特的,但不是連續的「 – Gevorg