多個條件我有一列像下面:如何篩選在同一列pyspark SQL
+-------+------------------+-------+
| name| value|user_id|
+-------+------------------+-------+
| user 1| view | 1|
| user 1| processed| 1|
| user 2| view | 3|
| user 3| view | 4|
+-------+------------------+-------+
我想列如下圖所示。
+-------+------------------+-------+
| name| value|user_id|
+-------+------------------+-------+
| user 2| view | 3|
| user 3| view | 4|
+-------+------------------+-------+
簡單地說,消除完成兩個動作的ID。
目前,我有一個像下面
df1 = df.where(value=="processed").select("id").distinct()
df2 = df.where(value=="view").select("id").distinct()
現在,如何讓僅只有圖中不processed.Or有沒有更好的方式來做到這一點IDS兩個數據幀?
可以格式化你的問題嗎? – mtoto
完成...請檢查現在... –