2015-11-25 93 views
0

我有groupByDataFrame它基於3列。我做這樣的事情:火花:組通過條件

myDf.groupBy($"col1", $"col2", $"col3") 

反正我不知道這是如何工作。

它是否管理忽略情況?我需要每個列"FOO""foo"被認爲是相同的像「」和null。

如果這不是假定的工作模式,我可以如何添加它?從API文檔中,我可以在列上看到apply,但我找不到任何示例。

有什麼想法?

+0

你能更準確?這並不完全清楚你想要什麼以及它與分組有什麼關係。 – zero323

+0

現在還不確定。我停下來使用Dataframe,而我僅使用RDD。我只用50分鐘完成相同的事情,而不是20小時。所以在這一點上我不確定是否繼續使用groupBy。 – Randomize

回答