2016-01-25 20 views

回答

7

這是故意

如果認爲它是安全的假設,這是故意的。其他工會運營商如RDD.unionDataSet.union也將保留重複。

如果你認爲它是有道理的。雖然相當於UNION ALL的操作只是一種邏輯操作,它不需要數據訪問或網絡流量,但發現不同的元素需要洗牌,因此可能會非常昂貴。

有沒有辦法聯合兩個數據幀沒有重複?

df1.unionAll(df2).distinct()