我讀一個CSV作爲一個數據幀由如下:如何將一組RelationalGroupedDataset傳遞給一個函數?
val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("D:/ModelData.csv")
然後我組由三列如下返回一個RelationalGroupedDataset
df.groupBy("col1", "col2","col3")
而且我希望每個分組的數據幀進行發送通過以下功能
def ModelFunction(daf: DataFrame) = {
//do some calculation
}
例如,如果我有col1有2個唯一值(0,1)值和col2有2個唯一值(1,2)和co l3有3個唯一值(1,2,3)然後我想通過每個組合分組到模型函數像col1 = 0,col2 = 1,col3 = 1我將有一個數據幀,我想將它傳遞給ModelFunction等三列的每個組合。
我試圖
df.groupBy("col1", "col2","col3").ModelFunction();
但它拋出一個錯誤。
。
任何幫助表示讚賞。