我有如下合併多個數據集的單集沒有阿帕奇火花SQL中使用unionAll功能
Dataset 1:
+----------+--------------------+---------+---+
| Time| address| Date|value|sample
+----------+--------------------+---------+---+------+
|8:00:00 AM| AAbbbbbbbbbbbbbbbb|12/9/2014| 1 |0 |
|8:31:27 AM| AAbbbbbbbbbbbbbbbb|12/9/2014| 1 |0 |
+----------+--------------------+---------+---+------+
Dataset 2:
| Time| Location| Date|sample|value
+-----------+--------------------+---------+------+------+
| 8:45:00 AM| AAbbbbbbbbbbbbbbbb|12/9/2016| 5 | 0 |
| 9:15:00 AM| AAbbbbbbbbbbbbbbbb|12/9/2016| 5 | 0 |
+-----------+--------------------+---------+------+------+
我使用follwoing unionAll()函數機器人DS1和DS2結合自己的數據集,
Dataset<Row> joined = dataset1.unionAll(dataset2).distinct();
有沒有更好的方法來組合這個ds1和ds2,因爲unionAll()函數在spark 2.x.中被棄用了?
只使用'union()',它會默認刪除重複記錄。 – mtoto