2017-01-20 46 views
0

我有多個行數據幀,基於列我想比較每一列的值,並找到列名比較。多個列中的值在星火數據幀

例如 DF-id,名稱,地址,街道,城市,國家,郵政編碼 基於ID,我想找出哪些字段有差異。

Seq(1,aaa,no55,melbourne,australia,00001) 
Seq(1,aaa,no55,melbourne,australia,00002) 
Seq(2,aaa,no55,melbourne,australia,00001) 
Seq(2,aaa,no55,melbourne,australia,00001) 

這裏,郵政編碼有ID差異= 1

如何以更有效的方式做到這一點,因爲我要檢查該數據幀50列。感謝您的提前。

+0

是否有任何行集到所不能比擬的輸入數據?如果是,那麼可能有些可能 – FaigB

+0

是FaigB,它基於ID列。多個相同的ID列將被比較。 – Rajan

回答

-1

使用df.groupBy("all your columns here").count().filter("count = 1").show它會告訴你所有遞延記錄的至少有一列

+0

嗨夥計,我使用下面的查詢已經和了解你的上述query.It會給整個行,但我的觀點是需要得到像郵編,準確的欄和相應的值(00002) DF.where(COL(「狀態「).isin(」 YY 「 」XX「))。GROUPBY( 」ref_no「) .agg(countDistinct( 」在這裏我所有的列「)。如( 」規則1「)) 。凡(COL(」 規則1 「)。GT(1)) – Rajan