1
我有兩個dataframes:斯卡拉星火 - Map函數引用另一個數據框
DF1:
+---+------+----+
| id|weight|time|
+---+------+----+
| A| 0.1| 1|
| A| 0.2| 2|
| A| 0.3| 4|
| A| 0.4| 5|
| B| 0.5| 1|
| B| 0.7| 3|
| B| 0.8| 6|
| B| 0.9| 7|
| B| 1.0| 8|
+---+------+----+
DF2:
+---+---+-------+-----+
| id| t|t_start|t_end|
+---+---+-------+-----+
| A| t1| 0| 3|
| A| t2| 4| 6|
| A| t3| 7| 9|
| B| t1| 0| 2|
| B| t2| 3| 6|
| B| t3| 7| 9|
+---+---+-------+-----+
我期望的輸出是識別「 t'表示df1中的每個時間戳,其中't'的範圍以df2表示。
df_output:
+---+------+----+---+
| id|weight|time| t |
+---+------+----+---+
| A| 0.1| 1| t1|
| A| 0.2| 2| t1|
| A| 0.3| 4| t2|
| A| 0.4| 5| t2|
| B| 0.5| 1| t1|
| B| 0.7| 3| t2|
| B| 0.8| 6| t2|
| B| 0.9| 7| t3|
| B| 1.0| 8| t3|
+---+------+----+---+
我的理解至今是我必須創建一個UDF,是以列'id
和'time
作爲輸入,map
對於每一行,通過指的df2.filter(df2.id == df1.id, df1.time >= df2.t_start, df1.time <= df2.t_end), and get the corresponding
df2.t`
我對Scala和Spark非常陌生,所以我想知道這個解決方案是否有可能?
[標籤:斯卡拉]'=== '是一個正確的操作員。 – zero323
是的,你是對的。我不知道'===',並認爲這是一個錯字。我按照原來的方式糾正它,現在就可以使用! - ==和'==='有什麼區別? –
'==='是一個SQL等式。 '=='比較那些沒有意義的列對象。 – zero323