0
我需要使用Scala API在Spark中編寫一個場景。 我將一個用戶定義的函數傳遞給一個數據框,它逐個處理數據框的每一行並返回元組(Row,Row)。我如何將RDD(行,行)更改爲Dataframe(行)?見下面的代碼示例 -Spark - 如何將地圖功能輸出(行,行)元組轉換爲一個Dataframe
**Calling map function-**
val df_temp = df_outPut.map { x => AddUDF.add(x,date1,date2)}
**UDF definition.**
def add(x: Row,dates: String*): (Row,Row) = {
......................
........................
var result1,result2:Row = Row()
..........
return (result1,result2)
現在df_temp是一個RDD(Row1,Row2)。我的要求是通過將元組元素分解爲1個RDD或Dataframe的記錄來使其成爲一個RDD或Dataframe RDD(行)。感謝你的幫助。
如何將兩行元素組合起來?第二個列應該附加到第一個列?可能在兩行中都存在共同的列?沒有這些信息,問題就不清楚了。 –