我有一個pyspark數據幀重複的值不同的值,如:其中C1,C2,C3,C4,C5,C6是列PySpark數據幀上的一列識別基於在其他列
+----------------------------+ |c1 | c2 | c3 | c4 | c5 | c6 | |----------------------------| | a | x | y | z | g | h | | b | m | f | l | n | o | | c | x | y | z | g | h | | d | m | f | l | n | o | | e | x | y | z | g | i | +----------------------------+
我想爲具有相同c2,c3,c4,c5值但不同c1值的行提取c1值。 Like,1st,3rd &第5行對於c2,c3,c4 & c5具有相同的值,但具有不同的c1值。所以輸出應該是a,c & e。
(更新) 類似地,第二行&第4行對於c2,c3,c4具有相同的值c0但是不同的c1值。所以輸出還應該包含b & d
我該如何獲得這樣的結果?我試過應用groupby,但我不明白如何獲取c1的不同值。
UPDATE:
輸出應的數據幀C1值
# +-------+
# |c1_dups|
# +-------+
# | a,c,e|
# | b,e|
# +-------+
我的方法:
m = data.groupBy('c2','c3','c4','c5)
,但我不理解如何檢索值在米。我是新來pyspark dataframes因此很困惑
理解你的問題有點難。你能寫出輸出數據框的例子嗎? –
謝謝:)請檢查我的更新 – Denver
您可以通過您嘗試的方法更新組? – eliasah