1
我使用Spark的JAVA連接器,並想聯合兩個DataFrames,但奇怪的DataFrame類只有unionAll?這是故意的,有沒有辦法聯合兩個DataFrames沒有重複?Spark DataFrame類中的union()方法在哪裏?
我使用Spark的JAVA連接器,並想聯合兩個DataFrames,但奇怪的DataFrame類只有unionAll?這是故意的,有沒有辦法聯合兩個DataFrames沒有重複?Spark DataFrame類中的union()方法在哪裏?
這是故意
如果認爲它是安全的假設,這是故意的。其他工會運營商如RDD.union
和DataSet.union
也將保留重複。
如果你認爲它是有道理的。雖然相當於UNION ALL
的操作只是一種邏輯操作,它不需要數據訪問或網絡流量,但發現不同的元素需要洗牌,因此可能會非常昂貴。
有沒有辦法聯合兩個數據幀沒有重複?
df1.unionAll(df2).distinct()