多個列中的值在星火數據幀

我有多個行數據幀，基於列我想比較每一列的值，並找到列名比較。多個列中的值在星火數據幀

例如 DF-id，名稱，地址，街道，城市，國家，郵政編碼基於ID，我想找出哪些字段有差異。

Seq(1,aaa,no55,melbourne,australia,00001) 
Seq(1,aaa,no55,melbourne,australia,00002) 
Seq(2,aaa,no55,melbourne,australia,00001) 
Seq(2,aaa,no55,melbourne,australia,00001)

這裏，郵政編碼有ID差異= 1

如何以更有效的方式做到這一點，因爲我要檢查該數據幀50列。感謝您的提前。

來源

2017-01-20 Rajan

是否有任何行集到所不能比擬的輸入數據？如果是，那麼可能有些可能 – FaigB

是FaigB，它基於ID列。多個相同的ID列將被比較。 – Rajan

-1

使用df.groupBy("all your columns here").count().filter("count = 1").show它會告訴你所有遞延記錄的至少有一列

來源

2017-01-20 15:55:17 FaigB

嗨夥計，我使用下面的查詢已經和了解你的上述query.It會給整個行，但我的觀點是需要得到像郵編，準確的欄和相應的值（00002） DF.where（COL（「狀態「）.isin（」 YY 「」XX「））。GROUPBY（」ref_no「） .agg（countDistinct（」在這裏我所有的列「）。如（」規則1「））。凡（COL（」規則1 「）。GT（1）） – Rajan

多個列中的值在星火數據幀

回答

相關問題